滚动资讯

谷歌DeepMind新突破：Genie 2模型一键构建3D交互世界，时长可达1分钟！

时间：2024-12-05 10:10 来源：ITBEAR作者：杨凌霄

近日，人工智能领域的竞争再度升温，Google DeepMind在OpenAI即将发布新成果的前夕，抢先推出了其最新研发的大型基础世界模型——Genie 2。这款模型不仅能够生成各种可控动作和可玩的3D环境，还可用于训练和评估具身智能代理。

Genie 2的强大之处在于，只需一张提示图像，它便能根据用户输入的文本提示，生成一个对应的交互式虚拟世界。无论是人类还是AI代理，都能在这个由AI生成的3D游戏世界中探索和互动，使用键盘和鼠标进行操作。

作为一个自回归潜在扩散模型，Genie 2在大型视频数据集上进行训练。视频中的潜在帧经过自动编码器处理后，被传递到大型Transformer动力学模型中。该模型使用类似于大语言模型的因果掩码进行训练。在推理时，Genie 2能以自回归方式逐帧采样，获取单个动作和过去的潜在帧，Google DeepMind使用无分类器指导（CFG）来提高动作的可控性。

Genie 2在多个方面展示了其卓越的效果与优势，包括行动控制、生成反设事实、长视界记忆、长视频生成、多样环境、3D结构、物体交互、复杂角色动画、NPC、物理、烟雾、光影以及快速原型设计等。其博客文章中发布了大量由未蒸馏的基础模型生成的视频示例，展示了这些功能。虽然蒸馏版本支持实时交互，但视觉质量会有所降低。

Genie 2具有超强的空间记忆能力，能够模拟真实世界环境。与之前的世界模型相比，Genie 2在通用性上取得了显著进步，能够生成种类繁多的丰富3D世界。用户可以通过文生图模型Imagen 3生成的单个图像，按照提示词生成一个可交互的3D世界，并与之互动。

Genie 2还能快速创建各种交互体验的原型，将概念艺术和绘图转化为完全交互式环境。这对于艺术家和设计师来说，是一个快速制作研究环境概念原型的利器。同时，Genie 2还可为AI代理创建丰富多样的环境，生成在训练期间未见过的评估任务，为具身智能提供了绝佳的训练场。

尽管这项研究仍处于早期阶段，但Google DeepMind相信Genie 2是解决安全训练具体AI代理的结构性问题的途径，同时实现迈向通用人工智能（AGI）所需的广度和通用性。他们计划在通用性和一致性方面继续改进Genie的世界生成能力，以构建更通用的AI系统和代理，使其能够理解和安全地执行各种任务。