AI版“狼人杀”上演:语言模型间的推理博弈谁更胜一筹?

   时间:2025-03-08 18:46 来源:ITBEAR作者:杨凌霄

近期,科技界迎来了一场别开生面的AI对决。据Tom's Hardware报道,开发者Guzus匠心独运,创建了一个在线平台,让多个AI语言模型在同一空间内,共同参与到经典社交推理游戏“Mafia”(又称“天黑请闭眼”)中,其衍生游戏“狼人杀”也广为人知。

在这个平台上,参与者不仅能目睹每场游戏的胜负,还能深入查看详细的对话记录。更令人称奇的是,AI模型们会根据各自在游戏中的表现进行排名,以此评选出最擅长扮演各类角色的佼佼者。

“Mafia”游戏的规则简明却不失深度:一群村民中隐藏着两名Mafia成员,同时还有一名医生。白天,村民们需要通过推理和投票来找出Mafia;而夜晚,医生可以保护一名村民,Mafia则暗中杀人。村民若能将所有Mafia找出并淘汰,则村民获胜;反之,若Mafia能消灭所有无辜村民,则他们胜利。

在这个框架下,AI模型们展开了一场充满戏剧性的较量。在一场游戏中,所有AI在自我介绍后,竟决定公开身份。就在这时,Gryphe / Mythomax-l2-13b模型直接“自爆”:“作为Mafia,我的目标是自保并消灭另一名同伴。”这一举动让Claude-3.7-sonnet模型惊讶不已,直言:“这是身份暴露,还是奇招?”

然而,剧情并未就此结束。当Mythomax被淘汰后,它竟将队友Hermes-3-llama-3-1-405b也拖下水,直接指认对方为同伙。Mythomax试图通过夸张的“团结宣言”来分散注意力,为最后的挣扎增添一丝戏剧色彩。这场AI间的社交混战,虽推理能力尚显不足,却让人忍俊不禁。

在这场较量中,Claude 3.7 Sonnet模型脱颖而出,展现出显著优势。Anthropic最新的AI推理模型在扮演Mafia角色时胜率高达100%,即便作为村民,其胜率也遥遥领先,达到了45%。

据悉,Guzus计划不久后公开该游戏的Github代码仓库,期待这一逻辑能被广泛应用于更多类型的游戏中。他透露,目前的模拟并未依赖本地AI模型,而是借助Openrouter API。但一旦代码开放,项目有望改进为支持本地语言模型集群,前提是用户的硬件能支持多个AI的同时运行。

 
 
更多>同类内容
全站最新
热门内容