C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  少尉

注册:2015-11-142
发表于 2024-12-5 09:23:43 |显示全部楼层


亚星游戏官网-yaxin222


智东西(公众号:zhidxcom)

编辑 | ZeR0

编辑 | 漠影

智东西12月5日报道,AGI竞赛愈演愈烈!就在OpenAI宣布将于未来12天直播新发布和demo前,昨夜,谷歌 DeepMind发布大型基础世界模型Genie 2,能生成各种可控制动作、可玩的3D环境,还可以用于训练和评估具身agent。

亚星游戏官网-yaxin222

只要给一张提示图像,Genie 2就能按照你输入的文本提示,生成对应的交互式虚拟世界。无论是人类还是AI agent,都可以使用键盘和鼠标来在由AI生成的3D游戏世界里探索和互动。


Genie 2是一个自回归潜在扩散模型,训练于大型视频数据集。经过自动编码器后,视频中的潜在帧被传递到大型Transformer动力学模型。该模型使用与大语言模型类似的因果掩码进行训练。

在推理时,Genie 2能以自回归方式进行采样,逐帧获取单个动作和过去的潜在帧。谷歌 DeepMind使用CFG(无分类器引导,classifier-free guidance)来提高动作可控性。

亚星游戏官网-yaxin222

博客文章放出大量由未蒸馏的基础模型生成的视频示例,来展示Genie 2在行动控制生成反设事实长视界记忆长视频生成多样环境3D结构物体交互复杂角色动画NPC物理烟雾光影快速原型设计方面的效果与优势。蒸馏版本支撑实时交互,但运行时的视觉质量会降低些。

输入真实世界的照片后,它也能很好模拟一些物理规律,比如可模拟风中摇曳的草或河中流动的水。

亚星游戏官网-yaxin222

亚星游戏官网-yaxin222

一、超强空间记忆能力,模拟真实世界环境

此前世界模型在很大程度上局限于建模狭窄的领域。Genie 1引入了一种生成各种2D世界的方法。Genie 2则进一步在通用性上取得进展,可以生成种类繁多的丰富3D世界。

以下是与Genie 2互动的一些示例视频。模型会使用文生图模型Imagen 3生成的单个图像,按照提示词生成一个可交互的3D世界。人或agent进行键鼠操作,进入这个新创建的世界并与之互动。Genie 2可以生成长达1分钟的一致世界,大多数示例持续10-20秒(本文将部分视频示例转成gif动图并只截取片段,完整视频请到原博客文章查看)。

1、智能响应键盘按键操作

Genie 2可以智能地响应键盘上的按键操作,正确地识别并移动角色。比如下图中的几个示例,模型必须能弄清楚方向按键对应要移动的是机器人,而不是画面中的树、云等其他物体。

亚星游戏官网-yaxin222

亚星游戏官网-yaxin222

树林里的一个可爱的人形机器人。

亚星游戏官网-yaxin222

古埃及的人形机器人。

亚星游戏官网-yaxin222

紫色星球上的机器人的第一视角。

亚星游戏官网-yaxin222

大城市阁楼公寓中的机器人的第一视角。

2、生成反设事实

Genie 2可以从同一起始帧生成不同的轨迹,为训练agent模拟不同事实的体验。在每一行中,每个视频都从同一帧开始,但人类玩家采取的动作不同,生成的画面内容也响应不同。

亚星游戏官网-yaxin222

3、长视界记忆

Genie 2能够记住视野中不再存在的世界部分,并在它们再次可见时准确呈现。

亚星游戏官网-yaxin222

亚星游戏官网-yaxin222

4、使用新生成的内容生成长视频

Genie 2可动态生成新的合理内容,并在长达1分钟的时间内维持一致的世界。



5、多样化环境

Genie 2可创建不同的视角,例如第一视角、等距视图或第三视角驾驶视频。

亚星游戏官网-yaxin222

6、3D结构

Genie 2会创建复杂的3D视觉场景。

亚星游戏官网-yaxin222

7、模拟对象相互作用

Genie 2能模拟各种物体的相互作用,例如爆破气球、打开门和射击炸药桶。

亚星游戏官网-yaxin222

8、角色动画

Genie 2学习了如何为不同类型的角色制作动画来实行不同的活动。

亚星游戏官网-yaxin222

9、NPC

Genie 2能够模拟其他agent,甚至与它们进行复杂的交互。

亚星游戏官网-yaxin222

10、物理

Genie 2模拟水效果。

亚星游戏官网-yaxin222

11、烟雾

Genie 2模拟烟雾效果。

亚星游戏官网-yaxin222

12、重力

Genie 2模拟重力。

亚星游戏官网-yaxin222

13、灯光

Genie 2模拟光点和定向照明。

亚星游戏官网-yaxin222

14、反射

Genie 2模拟反射、喷雾减光和彩色灯光。

亚星游戏官网-yaxin222

二、理解物理世界差异,可将概念图转化成交互式环境

Genie 2模型可快速创建各种交互体验的原型。例如用Imagen 3生成不同图像,让Genie 2生成模拟纸飞机、龙、鹰、降落伞飞行的视频。可以看到Genie 2生成的视频能够理解并模拟出它们飞行的差异。

亚星游戏官网-yaxin222

概念艺术和绘图也可以被Genie 2转化成完全交互式环境,以便艺术家、设计师能快速制作研究环境概念的原型。

亚星游戏官网-yaxin222

三、AI agent也能玩,为具身智能提供绝佳训练场

Genie 2可快速为AI agent创建丰富多样的环境,从而生成agent在训练期间未见过的评估任务。

例如,谷歌 DeepMind与游戏开发商合作开发了SIMA agent。SIMA agent被设计成通过遵循自然语言指令来完成一系列3D游戏世界中的任务,因此可以在Genie 2合成的、未见过的环境实行指令。

输入下面Imagen 3生成的第三开放世界探索游戏图,Genie 2可生成一个带有两扇门(一扇是红门,一扇是蓝门)的3D环境。

亚星游戏官网-yaxin222

然后向SIMA agent提出打开某扇门的指令,Genie 2则能生成符合要求的画面。

亚星游戏官网-yaxin222

在这个示例中,SIMA通过键盘和鼠标输入控制角色,而Genie 2生成游戏帧。

也可以使用SIMA来帮助评估Genie 2的功能。通过指示SIMA环顾四周、探索房屋后面等,测试Genie 2生成一致环境的能力。

亚星游戏官网-yaxin222

再比如根据下面这张图来生成视频。

亚星游戏官网-yaxin222

输入不同提示词“上楼”、“去有植物的地方”、“走中间门”,Genie 2会生成对应的不同视频画面。

亚星游戏官网-yaxin222

虽然这项研究仍处于早期阶段,agent和环境生成能力都还有很大的改进空间,但谷歌 DeepMind相信Genie 2是解决安全训练具体agent的结构性问题的途径,同时实现迈向AGI所需的广度和通用性。

结语:世界模型,AI领域的下一件大事

游戏是安全测试和推进AI能力的理想环境。训练更通用具身agent的传统瓶颈在于缺乏足够丰富和多样化的训练环境。

谷歌 DeepMind正将越来越多资源投入于世界模型研究。Genie 2展示了基础世界模型在创建多样化3D环境、定制交互式游戏场景、加速agent研究等方面的潜力,可让未来的Agent在无限的新世界中接受训练和评估。

该研究方向尚处于早期阶段,谷歌 DeepMind计划在通用性和一致性方面继续改进Genie的世界生成能力。

与SIMA一样,其研究致力于构建更通用的AI系统和agent,使其能够理解和安全地实行各种任务,从而帮助在线和现实世界中的人们。

谷歌 DeepMind还放了一些有趣的“彩蛋”:Genie 2生成出一些奇怪视频,比如没有采取行动的情况下一个鬼魂出现在花园,在雪场的人物角色相比滑雪更爱跑酷、一个魔法球把周遭炸成灰。

亚星游戏官网-yaxin222

来源:谷歌 DeepMind

来源:智东西

举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2024-12-22 10:58 , Processed in 0.222434 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图