在人工智能领域,传统的基准测试方法逐渐显露出局限性,促使开发者们探索新颖的方式来评估生成式AI的能力。12年级学生阿迪·辛格引领了这一潮流,他选择了《我的世界》这款风靡全球的沙盒游戏作为新的评估平台。
辛格与合作伙伴共同创建了Minecraft Benchmark(MC-Bench)网站,该网站通过《我的世界》中的建造挑战来让AI模型一决高下。用户根据AI创建的作品进行投票,只有在投票后才能揭晓作品的创作者身份。这一创意不仅新颖,而且充分利用了《我的世界》作为史上最畅销电子游戏之一的广泛认知度。
辛格指出,《我的世界》的熟悉度和画面风格使得人们能够更直观地感受到AI发展的进步。游戏中的建造任务成为了评估AI能力的直观媒介,相较于现实生活,它更为安全且易于控制。
MC-Bench网站目前已有Anthropic、谷歌、OpenAI和阿里巴巴等公司的参与,它们资助了该项目以使用各自的产品运行基准测试提示,但并未深度介入项目的其他环节。辛格表示,目前的挑战主要集中在简单的建造任务上,旨在反映自GPT-3时代以来AI领域的进步。未来,他计划扩展至更复杂的长期项目和目标导向任务。
除了《我的世界》,其他游戏如《精灵宝可梦红》、《街头霸王》和《你画我猜》也被用作AI实验的基准测试。这反映了AI基准测试的复杂性,传统方法往往难以全面评估AI的能力。
在标准化评估中,AI模型经常展现出在某些领域的天然优势,尤其是那些依赖记忆和简单推理的任务。然而,这种优势并不总是能转化为全面的能力。例如,OpenAI的GPT-4在法学院入学考试中表现出色,但在识别单词“strawberry”中的“r”数量时却遇到困难。同样,Anthropic的Claude 3.7 Sonnet在软件工程基准测试中得分较高,但在玩《宝可梦》时的表现却不如五岁儿童。
从技术角度看,MC-Bench是一种编程基准测试,要求AI模型根据提示编写代码(即建造指令)来完成任务,如创建“雪人Frosty”或“原始沙滩上的热带海滩小屋”。然而,对于大多数评判者来说,评估一个雪人的外观远比深入研究代码要简单得多。这使得MC-Bench具有广泛的吸引力,并有可能收集到更多关于模型表现的数据。
尽管MC-Bench的分数对AI实用性的影响尚存争议,但辛格认为这是一个积极的信号。他表示,MC-Bench的测试结果排行榜与他个人使用这些模型的经验高度一致,这与许多纯文本基准测试不同。因此,MC-Bench可能对相关公司具有实用价值,有助于它们判断自己是否正在朝正确的方向发展。