近期,加州大学圣地亚哥分校的Hao AI Lab开展了一项别开生面的实验,他们将多款人工智能系统引入了经典游戏《超级马里奥兄弟》,旨在测试这些AI在游戏中的表现。
在这场AI游戏大赛中,表现最为抢眼的是美国人工智能初创公司Anthropic推出的Claude 3.7版本,紧随其后的是其3.5版本。相比之下,谷歌的Gemini 1.5 Pro和Open AI的ChatGPT 4.0则显得力不从心,在游戏中频频受挫。
为了实现AI对马里奥的控制,研究团队专门开发了一个名为GamingAgent的系统。该系统能够为AI提供基本的游戏指令,例如“当遇到障碍物或敌人时,请向左移动或跳跃以规避”。AI则通过Python代码生成相应的输入指令,操控马里奥在游戏中前进。
实验中,一个有趣的现象引起了研究人员的注意。像ChatGPT这样的推理模型,通常通过逐步分析问题来寻找解决方案,在这款游戏中却表现不佳,尽管它们在其他基准测试中往往表现出色。研究人员指出,推理模型在游戏中的困境主要在于其决策过程较长,通常需要几秒钟的时间才能确定行动。
然而,在《超级马里奥兄弟》这样的快节奏游戏中,时间至关重要。一秒钟的犹豫,可能就决定了马里奥是安全跳跃还是坠入深渊。
长期以来,游戏一直是测试AI性能的重要工具。但近年来,一些专家开始质疑这种做法的合理性,认为将AI的游戏技能与技术进步直接挂钩可能过于片面。