在人工智能领域,一项新的评测基准正悄然兴起,它不同于传统的算法测试,而是将AI放入了一个极具创意的场景——《我的世界》游戏中进行建筑能力的比拼。
这项新奇的评测方法吸引了大量关注,不同版本的大模型如Claude 3.5 Sonnet、OpenAI的o1系列等纷纷在《我的世界》中一展身手,其建筑成果由网友们投票评选。
在比拼中,新旧两版Claude 3.5 Sonnet的表现尤为引人注目。新版Sonnet,被戏称为“Sonnet 3.6”,在建筑创意性上小胜一筹,展现了不俗的迭代进步能力。
与此同时,OpenAI的o1系列也表现出色。o1-preview模型虽然建筑速度较慢,但其精细度和结构完整性令人印象深刻。在模仿真实建筑泰姬陵的任务中,o1-preview更是大放异彩,展现了极高的建筑技艺。
这场AI建筑大赛不仅吸引了众多观众的目光,更激发了开源社区的热情。在GitHub上,相关代码迅速上架,更多模型的测试结果也陆续公布,形成了一股AI建筑评测的热潮。
这场竞赛并非简单的建筑比拼。AI需要通过文本提供上下文,并生成下一步的操作指令,类似于根据棋盘行列编号下盲棋。这种评测方式不仅考验了AI的建筑能力,更对其文本理解和指令生成能力提出了高要求。
随着比赛的深入进行,越来越多有趣的建筑作品涌现出来。从塔式建筑到太阳系模型,再到反映AI个性的钻石墙和机器人形象,这些作品充分展现了AI的创造力和多样性。
如今,这项新型MC Bench评测已经成为AI领域的一道亮丽风景线。未来,随着更多模型的加入和评测机制的完善,我们有理由期待更多精彩作品的诞生。