滚动资讯

超聚变FusionOne AI一体机：DeepSeek大模型吞吐性能跃升新高度！

时间：2025-03-24 20:58 来源：ITBEAR作者：杨凌霄

在人工智能领域，大型模型的崛起犹如一股强劲的推动力，引领技术前沿。然而，伴随模型参数量的爆炸式增长，算力需求的陡增成为制约其广泛应用的瓶颈。如何高效、经济地运行这些庞然大物，成为业界亟待解决的难题。

DeepSeek R1满血大模型，一个拥有6710亿参数的巨擘，凭借其创新的MLA注意力机制与混合专家（MoE）架构，显著提升了推理效能。但即便如此，企业在实际应用中，对于性价比的追求仍然苛刻。

近日，超聚变公司推出的FusionOne AI大模型一体机，通过软硬件的深度协同优化，成功突破了H20硬件运行DeepSeek满血大模型的性能极限。在模拟对话场景中，仅需一台FusionServer G8600配备8张H20卡，便能流畅运行DeepSeek R1，支持高达1024的并发访问，总吞吐量达到6335 token/s，性能较业内其他H20方案提升了60%。尤为TPOT（每输出令牌时间）时延降低了40%，这意味着单台FusionOne AI大模型一体机足以支撑数千人规模企业的使用需求。

这一突破得益于多方面的软硬件协同优化。在算力释放方面，通过内核优化，显存空间利用率提升了20%，KV cache池使用率高达93%，确保了模型参数及过程数据的高效运行。在并行调度上，采用了DP数据并行与TP模型张量并行技术，实现了多卡分布式并行计算，token生成吞吐效率提高了50%。推理任务切片混合调度策略的实施，使得长文本切片在Prefill阶段加速初始内容生成，同时混合调度Decode任务并行运行，无需串行等待，资源利用率大幅提升，TTFT（首个令牌时间）和TPOT均显著降低。

超聚变FusionOne AI大模型一体机的问世，不仅以极致的成本效益和性能飞跃，大幅降低了DeepSeek-R1 671B模型的部署门槛，更以普惠的姿态，让更多企业和科研机构能够轻松拥抱这一前沿技术。这一创新成果，无疑为人工智能的广泛应用开辟了新的道路。

更多>同类内容