AI生成新世界:游戏竟是理解真实世界的钥匙?

   时间:2024-12-06 12:09 来源:ITBEAR作者:沈如风

近期,AI领域的两大突破性进展让业界眼前一亮,先是World Labs发布了其创新性的3D场景渲染AI,紧接着谷歌DeepMind也推出了第二代“世界模型”Genie 2,两者均展示了AI在理解和生成现实世界方面的巨大潜力。

World Labs的创始人李飞飞,作为AI界的重量级人物,其新项目引发了广泛关注。这家实验室声称,他们的AI能够直接渲染出完整的3D场景,超越了传统生成模型仅限于像素预测的范畴。这些场景不仅具备交互性和自由度,用户甚至可以通过键盘和鼠标在网页上进行操作体验。尽管目前仍处于测试阶段,官网上的案例已经足够让人惊叹,展示了AI在构建空间模型方面的强大能力。

然而,就在World Labs发布后不久,谷歌DeepMind也不甘示弱,推出了其第二代“世界模型”Genie 2。与World Labs的项目相比,Genie 2似乎更加流畅,自由度更高。它不仅能够生成类似游戏的基础世界模型,还支持用户通过WASD键、空格和鼠标来操控画面中的角色。更令人称奇的是,AI能够即时计算出根据操作产生的画面,持续时间可长达一分钟,且生成的画面和建模在用户操控键盘回溯时仍能保持一致。

Genie 2中的角色和交互也颇具看点。角色不仅可以步行,还能跑、跳、爬梯子,甚至开车和开枪射击。AI生成的NPC之间也能发生交互,尽管效果尚待完善。Genie 2还成功模拟了自然相关的运动场景,如水面波动、烟雾飘散,以及重力和光线反射效果,展现出AI在理解现实世界物理规律方面的显著进步。

尽管视觉效果令人印象深刻,但DeepMind也坦诚地指出,Genie 2目前仍处于早期版本,测试过程中仍会出现一些翻车案例。例如,在让画面中的小哥滑雪的任务中,AI却将其变成了跑酷;在另一个花园场景中,玩家尚未操作,就突然飘过了一个幽灵。这些瑕疵表明,尽管取得了显著进步,但AI在理解现实世界方面仍有待完善。

值得注意的是,与以往的Sora类视频模型相比,Genie 2和World Labs的项目在训练方向和技术路线上有所不同。Sora虽然号称世界模型,但穿模和幻觉问题难以解决,因为它们主要依赖视频素材进行学习,并不真正理解视频中的物体如何交互。而Genie 2和World Labs则通过学习环境和物体之间的交互关系,取得了更接近真实世界的模拟效果。尤其是DeepMind的Genie 2,通过游戏素材进行学习,不仅学到了角色和画面的动态变化,还观察到了键盘操作对画面和动作的影响,从而更全面地理解了物体与环境的交互。

 
 
更多>同类内容
全站最新
热门内容