Google DeepMind 公布 Genie 模型,可生成可交互的虚拟环境

Google DeepMind 公布 Genie 模型,可生成可交互的虚拟环境 Google DeepMind 今天介绍了 Genie ,一种根据互联网视频训练的基础世界模型,可以从合成图像、照片甚至草图生成无数种可玩(动作可控)的世界。 Genie 可以用它以前从未见过的图像来作为输入,使人们能够与生成的虚拟世界进行交互。它由一个时空视频标记器、一个自回归动力学模型和一个简单且可扩展的潜在行动模型组成。该模型可根据没有任何标注数据的公开互联网视频的大型数据集进行训练。该模型当前专注于 2D 平台游戏和机器人的视频,但其方法是通用的,并且可以扩展到任何类型的领域和更大的数据集。 团队还通过使用 Google 的 RT-1 机器人的摄像头视频数据训练模型,表明 Genie 能够学习与现实世界一致的动作空间。这可能产生一个现实世界模拟器,以便训练未来的通用智能体。 ,

相关推荐

封面图片

ℹGoogle DeepMind 推出 Genie,给草图图片就能生成 AI 游戏世界#

ℹGoogle DeepMind 推出 Genie,给草图图片就能生成 AI 游戏世界# AI 发展的速度真的实在是太快阿!继几周前 OpenAI 带来惊人的 Sora 模型之后,稍早 Google DeepMind 也推出一个...

封面图片

谷歌DeepMind推出Genie模型:110亿参数、可基于图片生成2D游戏

谷歌DeepMind推出Genie模型:110亿参数、可基于图片生成2D游戏 另有一个动态模型,用于在给定潜在动作和过去帧token的情况下,预测视频的下一帧。这三个组件共同协作,使得Genie能够生成具有高度交互性和可控性的虚拟世界。Genie通过了网络上超过20万小时的2D游戏视频训练,目前只是一个研究预览版,这些游戏更像是2D平台游戏,而不是完全的VR游戏。此外,它能生成图像和其他资产,将你的草图变成一个完全实现的开放世界,然后根据玩家提供的操作预测下一个像素帧,Genie还可以应用于设计相关的创作领域,进一步拓宽了创作者的想象空间。 ... PC版: 手机版:

封面图片

:一种新的生成式交互环境模型,能通过无监督学习,用未标注的互联网视频数据训练而成。

:一种新的生成式交互环境模型,能通过无监督学习,用未标注的互联网视频数据训练而成。 Genie具有11B参数,能将文本、合成图像、照片甚至手绘草图转换为可交互的虚拟世界。这一模型打破了传统世界模型需要特定领域数据和动作标签的局限,通过学习潜动作空间,实现了对生成环境的逐帧控制。 研究表明,Genie不仅能够创造多样的互动体验,还能够训练未来的通用智能体,通过对未见过的视频进行模仿学习,预示着人工智能领域迈向开放式学习和创造无限数据的新时代。

封面图片

Google DeepMind的新AI可以为视频生成配乐和对白

Google DeepMind的新AI可以为视频生成配乐和对白 DeepMind 写道:"视频生成模型正以惊人的速度发展,但目前的许多系统只能生成无声输出。V2A技术[可能]成为让生成的电影栩栩如生的一种有前途的方法"。DeepMind的V2A技术可以将配乐描述(例如"水母在水下跳动、海洋生物、海洋")与视频配对,创造出与视频中的人物和语气相匹配的音乐、音效甚至对话,并通过DeepMind的SynthID深度防伪技术打上水印。DeepMind 表示,为 V2A 提供动力的人工智能模型(一种扩散模型)是在声音和对话文本以及视频剪辑的组合上训练出来的。DeepMind 写道:"通过对视频、音频和附加注释进行训练,我们的技术学会了将特定音频事件与各种视觉场景联系起来,同时对注释或文本中提供的信息做出响应。"关于训练数据是否受版权保护,以及数据创建者是否被告知 DeepMind 的工作,目前还不得而知。人工智能驱动的声音生成工具并不新鲜。创业公司 Stability AI 上周刚刚发布了一款,ElevenLabs 在 5 月份也推出了一款。创建视频音效的模型也不新鲜。微软的一个项目可以从静止图像中生成说话和唱歌视频,Pika和GenreX等平台已经训练出模型,可以获取视频并猜测特定场景中适合的音乐或效果。但 DeepMind 声称,其 V2A 技术的独特之处在于,它可以理解视频中的原始像素,并自动将生成的声音与视频同步,还可以选择不加说明。V2A 并不完美,DeepMind 也承认这一点。由于底层模型并没有在大量存在伪像或扭曲的视频上进行过训练,因此它并不能为这些视频生成特别高质量的音频。出于这些原因,同时也为了防止滥用,DeepMind 表示不会在短期内(如果有的话)向公众发布这项技术。DeepMind 写道:"为了确保我们的 V2A 技术能够对创意社区产生积极影响,我们正在收集来自顶尖创作者和电影制作人的各种观点和见解,并利用这些宝贵的反馈意见来指导我们正在进行的研究和开发工作。在考虑向更广泛的公众开放之前,我们的 V2A 技术将接受严格的安全评估和测试。"DeepMind 的 V2A 技术对于档案管理员和处理历史片段的人来说是一种特别有用的工具。但是,按照这种思路进行的生成式人工智能也有可能颠覆电影和电视行业。要想确保生成式媒体工具不会消除工作岗位,或者说,消除整个职业,就需要一些强有力的劳动保护措施。 ... PC版: 手机版:

封面图片

Google 正在利用 DeepMind AI语言模型为 YouTube Shorts 生成描述,使它们更易于搜索。

Google 正在利用 DeepMind AI语言模型为 YouTube Shorts 生成描述,使它们更易于搜索。 标签:#Google #AI #YouTube 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

Google新型人工智能可将图像转化为可玩的小游戏

Google新型人工智能可将图像转化为可玩的小游戏 Google DeepMind 最近发布了一款人工智能模型 Genie,它可以利用静态图像制作小型互动游戏。Google表示,这项技术背后的基础可以促进其他应用,比如训练人工智能机器人。Genie是在大约 20 万小时的公开游戏画面(可能来自Google子公司 YouTube)基础上训练出来的。目前还不清楚使用它的人是否会与这些游戏的创作者发生版权纠纷。值得注意的是,人工智能不需要文本或动作标签来解释它所看到的内容,它只需通过视频帧来解读哪些元素应作为地形,哪些元素应作为可控制的头像。Genie还能解读图像中的三维深度,从而在游戏中模拟视差滚动。该工具可以根据绘画、草图、渲染图、照片和其他类型的图像构建小型视频游戏关卡。由于Genie可以处理它以前从未见过的图片,因此它还可以根据人工智能生成的内容构建环境,从而为使用一个人工智能的内容在另一个人工智能中创造新事物开辟了前景。不过,还有改进的余地。与其他人工智能模型一样,Genie也会产生幻觉。此外,最初的迭代版本只能记忆多达 16 个帧,这严重限制了它在保持一致的情况下构建关卡的大小。该模型 1fps 的运行速度也有很大的改进空间。为确保准确性,Genie 的初步演示侧重于复制 2D 平台游戏。不过,Google表示,可以训练它创建其他类型的游戏和虚拟内容。例如,Google表示,Genie 可以帮助更有效地训练某些机器人。使用人工模拟进行的训练只能提供有限的场景,而 Genie 可以构建更广泛的虚拟环境和对象,供机器人学习。通过进一步开发,Genie 可以将交互式布景变成生成式人工智能的下一个主要领域。目前,视频正成为人们关注的焦点,尤其是 OpenAI 在上个月推出了 Sora,它可以制作逼真的 60 秒 1080p 短片。不出所料,人工智能生成的视频并不完美,但它代表了该技术的重大飞跃。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人