在人工智能领域,DeepSeek v3的发布如同一股清流,其凭借后发优势,巧妙地规避了前辈们曾踏入的陷阱,实现了高效避坑。这一成果得益于它站在了巨人的肩膀上,通过更优化的方式利用现有算力,力求实现收益的最大化。
有观点认为,DeepSeek v3在训练成本上的控制堪称典范。据悉,o1的训练成本远高于GPT-4,而推测中o3的训练成本更可能远超o1。然而,DeepSeek v3在GPT-4o发布仅7个月后,便以十分之一的算力实现了近乎同等的性能,这无疑是训练成本下降趋势的一个有力证明。但与此同时,也存在对“训练”概念理解的偏差。
幻方公司在其论文中明确指出,DeepSeek-V3的成本仅涵盖了正式训练阶段,而不包括前期研究、算法优化、数据准备等环节的投入。这意味着,在追求训练成本降低的同时,我们不能忽视其他关键环节的投入。一位算法工程师形象地比喻道:“这就像学生在准备高考时,虽然最终考试可能只用了几小时,但在此之前的学习、复习、模拟考试等投入都是不可或缺的。”
随着数据量的爆炸式增长,合成数据逐渐成为突破数据瓶颈的重要途径。未来的预训练范式将更加注重数据质量,而非单纯追求参数或数据总量的增加。算力,作为推动模型训练的关键因素,其需求并未因算法优化而减少,反而呈现出持续增长的趋势。OpenAI、Anthropic等顶尖实验室仍面临算力短缺的困境,幻方也不例外。
从全局视角来看,训练算力的总需求并未下降,反而随着模型复杂度的提升而不断增加。预训练的经济效益虽然有所下降,但实验室并未因此减少投入,而是将算力资源转移到其他训练环节,如强化学习后训练等。这种转变并未减少算力的总体需求,而是推动了算力在不同训练环节之间的优化配置。
DeepSeek v3的成功,不仅在于其训练成本的控制,更在于其对模型能力的提升。幻方在LLM路线上,将MoE技术发挥到了极致,同时也在积极探索r2/r3等更先进的模型。这些模型的训练将消耗更多的算力,但也将为DeepSeek v4等后续模型的合成数据提供有力支持。预训练、强化学习、测试时间计算等环节的优化,形成了正反馈循环,推动了模型能力的持续提升。
在推理方面,DeepSeek-V3及其轻量版V3-Lite的推出,为私有部署和自主微调提供了可能,为下游应用提供了广阔的发展空间。随着LLM应用生态的日益繁荣,未来一两年内,我们有望见证更丰富的推理芯片产品和更广泛的应用场景。
DeepSeek v3的发布不仅展示了其在训练成本控制方面的卓越能力,更揭示了人工智能领域算力需求持续增长的趋势。在追求高效算法和工程手段的同时,我们不能忽视其他关键环节的投入,以确保模型能力的持续提升。未来,随着技术的不断进步和应用场景的日益丰富,人工智能领域将迎来更加广阔的发展前景。