在人工智能日新月异的今天,一句“任天堂乃游戏界之王”的话语似乎并未过时,反而被赋予了新的含义。最近,AI领域的突破再次将人们的目光聚焦于这一经典论断上。
不久前,美国AI企业Anthropic在Twitch平台上展示了其最新AI模型Claude 3.7 Sonnet在《宝可梦·红》中的表现,这一举动不仅彰显了当前AI技术的强大,也引发了广泛讨论。经过多次游戏测试,研究人员发现,《宝可梦》系列成为了检验Claude 3.7 Sonnet能力的一个绝佳平台,因为该模型在游戏中展现出了“思考”的能力,成功赢得了三个道馆的徽章。
然而,最新的研究却指出,《超级马力欧兄弟》或许更能成为衡量AI工具性能的试金石。加州大学圣地亚哥分校的Hao AI Lab设计了一个与GamingAgent框架集成的《超级马力欧兄弟》游戏,用于测试AI工具。在这个框架下,AI接收基本指令,如“遇敌或障碍物时向左或跳跃躲避”,并参考游戏截图,通过Python代码生成控制马力欧的输入。
测试结果显示,Claude 3.7在各项性能中表现最优,紧随其后的是Claude 3.5、Gemini 1.5 Pro和GPT-4o。与《宝可梦》的回合制战斗不同,《超级马力欧兄弟》这类强调即时反应的游戏对AI的推理模型提出了更高要求,每一秒的决策都至关重要,稍有不慎便可能导致游戏失败。
回顾历史,用游戏来测试AI并非新鲜事。早在2019年,OpenAI就曾举办比赛,展示其OpenAI Five在Dota 2游戏中的实力,该模型不仅击败了一支专业玩家队伍,还在公开发布后在线击败了99.4%的选手。然而,随着时间的推移,OpenAI逐渐将研究重心转向自然语言处理等其他领域,不再将游戏作为基准测试。
前Salesforce首席AI科学家Richard Socher对此表示,尽管为游戏创建AI令人兴奋且易于商业化,但这些成果并未真正为世界创造价值。他认为,游戏作为抽象、简单的世界,与真实环境相比存在缺陷。AI如果不能很好地适应新环境,就难以在时代变迁中解决实际问题。即便是胜率高达9成的OpenAI Five,也仅仅掌握了Dota 2中的16个角色。
随着GPT-4.5的发布,OpenAI的研究科学家也提到了AI评测的“评估危机”,表示在众多AI指标中难以抉择。这一现状确实引起了AI领域研究者的广泛关注。GPT-4.5的独特性和人情味备受赞誉,但其“品味”如何评价却成为了一个难题。
不过,无论如何,我们如今已经能够欣赏到AI在《超级马力欧兄弟》中的精彩表现,这无疑是技术进步带来的乐趣之一。