滚动资讯

任天堂经典游戏成AI新试炼场，《超级马力欧》能否测出AI真水平？

时间：2025-03-04 17:17 来源：ITBEAR作者：沈瑾瑜

在人工智能日新月异的今天，一句“任天堂乃游戏界之王”的话语似乎并未过时，反而被赋予了新的含义。最近，AI领域的突破再次将人们的目光聚焦于这一经典论断上。

不久前，美国AI企业Anthropic在Twitch平台上展示了其最新AI模型Claude 3.7 Sonnet在《宝可梦·红》中的表现，这一举动不仅彰显了当前AI技术的强大，也引发了广泛讨论。经过多次游戏测试，研究人员发现，《宝可梦》系列成为了检验Claude 3.7 Sonnet能力的一个绝佳平台，因为该模型在游戏中展现出了“思考”的能力，成功赢得了三个道馆的徽章。

然而，最新的研究却指出，《超级马力欧兄弟》或许更能成为衡量AI工具性能的试金石。加州大学圣地亚哥分校的Hao AI Lab设计了一个与GamingAgent框架集成的《超级马力欧兄弟》游戏，用于测试AI工具。在这个框架下，AI接收基本指令，如“遇敌或障碍物时向左或跳跃躲避”，并参考游戏截图，通过Python代码生成控制马力欧的输入。

测试结果显示，Claude 3.7在各项性能中表现最优，紧随其后的是Claude 3.5、Gemini 1.5 Pro和GPT-4o。与《宝可梦》的回合制战斗不同，《超级马力欧兄弟》这类强调即时反应的游戏对AI的推理模型提出了更高要求，每一秒的决策都至关重要，稍有不慎便可能导致游戏失败。

回顾历史，用游戏来测试AI并非新鲜事。早在2019年，OpenAI就曾举办比赛，展示其OpenAI Five在Dota 2游戏中的实力，该模型不仅击败了一支专业玩家队伍，还在公开发布后在线击败了99.4%的选手。然而，随着时间的推移，OpenAI逐渐将研究重心转向自然语言处理等其他领域，不再将游戏作为基准测试。

前Salesforce首席AI科学家Richard Socher对此表示，尽管为游戏创建AI令人兴奋且易于商业化，但这些成果并未真正为世界创造价值。他认为，游戏作为抽象、简单的世界，与真实环境相比存在缺陷。AI如果不能很好地适应新环境，就难以在时代变迁中解决实际问题。即便是胜率高达9成的OpenAI Five，也仅仅掌握了Dota 2中的16个角色。

随着GPT-4.5的发布，OpenAI的研究科学家也提到了AI评测的“评估危机”，表示在众多AI指标中难以抉择。这一现状确实引起了AI领域研究者的广泛关注。GPT-4.5的独特性和人情味备受赞誉，但其“品味”如何评价却成为了一个难题。

不过，无论如何，我们如今已经能够欣赏到AI在《超级马力欧兄弟》中的精彩表现，这无疑是技术进步带来的乐趣之一。

更多>同类内容