OpenAI on Friday launched a new artificial intelligence (AI) "reasoning" model o3-mini. The company said the newest in the ...
2. DeepSeek 有好口碑的原因在于是第一个把复现 MoE、o1 等发出来,胜在做的早,但能不能做到最好,空间还很大。后面新的挑战在于资源有限,只能把有限的资源放在最亮眼的地方。这个团队的 research 能力、团队文化还是很好的,如果再给 ...
Lex Fridman 今早发布了一个长达五个小时的播客,内容涵盖 DeepSeek, China, OpenAI, NVIDIA, xAI, TSMC, Stargate 等话题。由于信息量过于庞大,Indigo ...
受美国 AI 芯片禁令影响,DeepSeek 团队不得不在性能较低的 H800 GPU(而非 H100)上进行多项优化创新,最终以低于 600 万美元的计算成本完成了模型训练(研发成本不计)。
71. DeepSeek 更多是 FP8,美国是 FP16,DeepSeek 所有都是基于有限算力工程能力的提升,对于算力高效的使用是最大亮点。上周五 DeepSeek 在北美有巨大的发酵,扎克伯格对 Meta ...
如今的观点认为,DeepSeek的模型如此高效,以至于算力不再是瓶颈,整个市场因此出现了严重的算力过剩。然而,这种说法过于夸大。“杰文斯悖论” ...
力大砖飞,简洁优雅。 我觉得最大的价值是证明了:基于一个很强的模型(deepseekv3-base),用最简单的rule-based reward来做rl,经过大量训练(8k steps * bs 512/1024),也能达到目前reasoning ...
在这个AI迭代速度堪比火箭升空的时代,中国AI实验室DeepSeek再度引爆全球视线:其最新发布的“R1”模型不仅在性能上逼近国际顶尖水平,更以低成本训练颠覆了外界对行业“高投入、高壁垒”的传统印象。深究此事,我们会发现它所带来的冲击远不止于一次技术 ...
不到两个月,国产推理模型就实现了对OpenAI o1满血版(2024年12月上线)的对标,而且与OpenAI藏着掖着的技术秘诀不同,两家中国公司双双公开了他们的特色技术道理: DeepSeek R1的极高性价比,kimi k1.5原创技术long2short 高效思维链+原生多模态。
今天,DeepSeek团队自豪地宣布DeepSeek-R1的正式发布,同时将模型权重开源。DeepSeek-R1遵循MIT许可证,为用户提供了蒸馏技术的便利,帮助他们利用R1进行其他模型的训练。全新上线的API,用户只需设置model='deepseek-reasoner',即可体验思维链输出的强大功能。