滚动资讯

DeepSeek崛起，训练算力趋势如何？英伟达地位面临挑战？

时间：2024-12-29 07:23 来源：ITBEAR作者：朱天宇

在人工智能领域，DeepSeek v3的发布如同一股清流，其凭借后发优势，巧妙地规避了前辈们曾踏入的陷阱，实现了高效避坑。这一成果得益于它站在了巨人的肩膀上，通过更优化的方式利用现有算力，力求实现收益的最大化。

有观点认为，DeepSeek v3在训练成本上的控制堪称典范。据悉，o1的训练成本远高于GPT-4，而推测中o3的训练成本更可能远超o1。然而，DeepSeek v3在GPT-4o发布仅7个月后，便以十分之一的算力实现了近乎同等的性能，这无疑是训练成本下降趋势的一个有力证明。但与此同时，也存在对“训练”概念理解的偏差。

幻方公司在其论文中明确指出，DeepSeek-V3的成本仅涵盖了正式训练阶段，而不包括前期研究、算法优化、数据准备等环节的投入。这意味着，在追求训练成本降低的同时，我们不能忽视其他关键环节的投入。一位算法工程师形象地比喻道：“这就像学生在准备高考时，虽然最终考试可能只用了几小时，但在此之前的学习、复习、模拟考试等投入都是不可或缺的。”

随着数据量的爆炸式增长，合成数据逐渐成为突破数据瓶颈的重要途径。未来的预训练范式将更加注重数据质量，而非单纯追求参数或数据总量的增加。算力，作为推动模型训练的关键因素，其需求并未因算法优化而减少，反而呈现出持续增长的趋势。OpenAI、Anthropic等顶尖实验室仍面临算力短缺的困境，幻方也不例外。

从全局视角来看，训练算力的总需求并未下降，反而随着模型复杂度的提升而不断增加。预训练的经济效益虽然有所下降，但实验室并未因此减少投入，而是将算力资源转移到其他训练环节，如强化学习后训练等。这种转变并未减少算力的总体需求，而是推动了算力在不同训练环节之间的优化配置。

DeepSeek v3的成功，不仅在于其训练成本的控制，更在于其对模型能力的提升。幻方在LLM路线上，将MoE技术发挥到了极致，同时也在积极探索r2/r3等更先进的模型。这些模型的训练将消耗更多的算力，但也将为DeepSeek v4等后续模型的合成数据提供有力支持。预训练、强化学习、测试时间计算等环节的优化，形成了正反馈循环，推动了模型能力的持续提升。

在推理方面，DeepSeek-V3及其轻量版V3-Lite的推出，为私有部署和自主微调提供了可能，为下游应用提供了广阔的发展空间。随着LLM应用生态的日益繁荣，未来一两年内，我们有望见证更丰富的推理芯片产品和更广泛的应用场景。

DeepSeek v3的发布不仅展示了其在训练成本控制方面的卓越能力，更揭示了人工智能领域算力需求持续增长的趋势。在追求高效算法和工程手段的同时，我们不能忽视其他关键环节的投入，以确保模型能力的持续提升。未来，随着技术的不断进步和应用场景的日益丰富，人工智能领域将迎来更加广阔的发展前景。

更多>同类内容

打造游戏佳作，创意与乐趣并存：全方位指南助你拍出精彩

12-29

《宝可梦》主角家大揭秘：妈妈们的卧室去哪了？

12-28

MAPPA操刀《方舟：生存飞升》新扩展“失落之地”动画，你期待吗？

12-28

《黑神话：悟空》领衔，2024微博游戏大赏获奖名单揭晓！

12-28

3A游戏画面追求下的高成本与行业困境，出路何在？