在人工智能领域的一项创新尝试中,加利福尼亚大学圣地亚哥分校的Hao AI Lab近期将AI技术融入经典电子游戏《超级马力欧兄弟》,以此作为测试AI性能的独特平台。这项研究不仅揭示了不同AI模型在游戏中的实际表现,还意外地揭示了一些关于AI推理能力的有趣发现。
实验并非使用1985年原版《超级马力欧兄弟》,而是在一个模拟器中运行游戏,并通过Hao AI Lab自主研发的GamingAgent框架与AI相连。这个框架能够向AI发送基本指令,并提供游戏截图,AI则通过生成Python代码来操控游戏角色马力欧。
研究结果显示,Anthropic公司的Claude 3.7模型在本次测试中脱颖而出,紧随其后的是Claude 3.5。相比之下,谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则未能展现出预期的高水平表现。这一结果不仅反映了不同AI模型在处理复杂游戏环境时的能力差异,也引发了关于AI性能评估标准的进一步讨论。
值得注意的是,实验中的游戏环境对AI模型提出了严峻挑战,要求它们学会规划复杂操作并制定有效游戏策略。有趣的是,实验发现像OpenAI的o1这样的推理模型,尽管在多数基准测试中表现优异,但在本次游戏中却不如“非推理”模型。研究人员指出,推理模型在实时游戏中表现不佳的主要原因在于其决策过程耗时较长,而在《超级马力欧兄弟》这样的游戏中,时机把握至关重要。
长期以来,游戏一直是衡量AI性能的重要工具之一。然而,一些专家对此提出了质疑,认为游戏环境与现实世界相比过于抽象和简单,且能提供理论上无限的数据供AI训练,因此可能无法准确反映AI在实际应用中的表现。
近期,一些引人注目的游戏基准测试结果更是引发了所谓的“评估危机”。OpenAI的研究科学家、创始成员安德烈・卡帕西在社交媒体上发文表示,他目前对于应该关注哪些AI指标感到困惑,并坦言不知道这些模型到底有多好。
尽管如此,观看AI玩《超级马力欧兄弟》仍然是一种有趣的体验。这一创新尝试不仅为AI性能评估提供了新的视角,也让我们看到了AI技术在游戏领域应用的无限可能。