Meta开源大模型Llama-4遭质疑,LMArena排名暴跌至32名

   时间:2025-04-14 15:55 来源:ITBEAR作者:朱天宇

近期,LMArena排行榜上发生了一场戏剧性的变动,meta发布的开源大模型Llama-4-Maverick的排名从昔日的榜眼之位骤降至第32名。这一变动背后,隐藏着开发者对meta刷榜行为的质疑。

4月6日,meta隆重推出了Llama 4系列大模型,包括Scout、Maverick和Behemoth三个版本。其中,Llama-4-Maverick在LMArena的Chatbot Arena LLM排行榜上一度占据第二的位置,仅次于Gemini 2.5 Pro。然而,随着开源版本的广泛使用,Llama 4的口碑却急剧下滑。开发者们发现,meta提供给LMArena评测的Llama 4版本与向社区公开的开源版本存在差异,从而引发了刷榜作弊的质疑。

面对质疑,Chatbot Arena官方于4月8日正式回应,确认了meta提供的确实是“特供版”模型,并表示将考虑更新排行榜。据官方透露,meta首次提交的Llama-4-Maverick-03-26-Experimental是一个针对聊天优化的实验性版本,该版本在评测中取得了第二的好成绩。然而,修正后的开源版本Llama-4-Maverick-17B-128E-Instruct,在排行榜上的位置却大幅下滑至第32名。

目前,开源版Llama-4-Maverick-17B-128E-Instruct的排名远低于Gemini 2.5 Pro、GPT4o、DeepSeek-V3-0324等热门模型,甚至不及英伟达基于Llama 3.3改造的Llama-3.3-Nemotron-Super-49B-v1。这一结果无疑让开发者们大跌眼镜。

对于Llama-4-Maverick-03-26-Experimental表现不佳的原因,meta在上周六发布的一份图表中解释说,该模型是专门针对对话性进行优化设计的。这些优化在LM Arena评测中确实取得了显著效果,因为评测者会根据模型的输出选择他们更偏好的结果。

尽管LM Arena从未被视为衡量AI模型性能的最可靠指标,但针对基准测试调整模型的做法仍具有误导性,且让开发者难以准确预测模型在不同场景下的实际表现。meta的一位发言人向TechCrunch表示,meta会尝试各种定制变体,并强调Llama-4-Maverick-03-26-Experimental是聊天优化的尝试之一,在LM Arena上表现良好。同时,他也表示期待看到开发者如何根据自己的使用案例定制Llama 4,并期待他们的持续反馈。

 
 
更多>同类内容
全站最新
热门内容