滚动资讯

谷歌DeepMind新突破：一张图生成无限3D游戏世界，马斯克会加入吗？

时间：2024-12-05 10:05 来源：ITBEAR作者：沈如风

在科技界的最新突破中，谷歌推出了一款名为Genie 2的先进世界模型，它不仅能够生成无限多样的3D游戏世界，还能响应玩家的键鼠操作，实现了前所未有的可玩性和可控制性。这一技术的发布，迅速吸引了科技爱好者的广泛关注，其中就包括了对AI技术充满热情的特斯拉CEO马斯克。

Genie 2与之前的研究相比，最大的亮点在于其长期记忆功能。即便玩家将视角转向别处，再回到先前的场景时，已存在的游戏世界部分依然能够稳定渲染，不会出现画面断裂或失真。这种技术革新，让游戏世界更加真实、连贯，为玩家带来了沉浸式的游戏体验。

更令人惊叹的是，Genie 2支持AI NPC（非玩家角色）的加入，这些NPC能够与玩家控制的角色进行复杂、多样的交互，使得游戏世界充满了无限可能。这意味着，玩家可以通过文字描述自己心目中的世界，选择最心仪的呈现方式，然后亲自进入这个世界，与各种角色进行互动，体验前所未有的游戏乐趣。

马斯克对这一技术的评价是“很酷”，并随后接受了DeepMind创始人Hassabis的邀请，共同探讨合作开发AI游戏的可能性。考虑到马斯克此前曾表示将创办一家AI游戏工作室，这一合作似乎并非空穴来风。

然而，谷歌DeepMind的这项研究并非仅仅为了娱乐。Genie 2还可以作为训练和评估具身智能体的平台，通过创建丰富多样的游戏环境，生成AI在训练期间未见过的评估任务。这种能力对于推动AI技术的发展具有重要意义，尤其是在实现通用人工智能（AGI）的道路上。

例如，通过文字指令训练智能体打开正确的门，Genie 2能够模拟出多种可能的场景和结果，从而帮助智能体学会在不同情况下做出正确的决策。这种训练方式不仅提高了智能体的适应性和灵活性，还为其在未来的实际应用中打下了坚实的基础。

Genie 2还展示了世界模型的涌现能力，包括对象交互、复杂的角色动画、物理模拟以及建模并预测其他智能体行为的能力。这意味着玩家在游戏中的每一个操作都可能引发不同的连锁反应和结果，使得游戏体验更加丰富和多变。

实现这一切的背后，是扩散模型的强大支持。Genie 2作为一种自回归潜空间扩散模型，在大型视频数据集上进行了训练。通过自编码器的处理，视频的潜在帧被传递到一个大型Transformer动力学模型中，该模型使用与大型语言模型类似的因果掩码进行训练。在推理时，Genie 2能够自回归方式采样，对单个操作和过去的帧逐帧执行，从而生成连贯、逼真的游戏世界。