谷歌DeepMind推出Genie模型:110亿参数、可基于图片生成2D游戏

谷歌DeepMind推出Genie模型:110亿参数、可基于图片生成2D游戏 另有一个动态模型,用于在给定潜在动作和过去帧token的情况下,预测视频的下一帧。这三个组件共同协作,使得Genie能够生成具有高度交互性和可控性的虚拟世界。Genie通过了网络上超过20万小时的2D游戏视频训练,目前只是一个研究预览版,这些游戏更像是2D平台游戏,而不是完全的VR游戏。此外,它能生成图像和其他资产,将你的草图变成一个完全实现的开放世界,然后根据玩家提供的操作预测下一个像素帧,Genie还可以应用于设计相关的创作领域,进一步拓宽了创作者的想象空间。 ... PC版: 手机版:

相关推荐

封面图片

Google DeepMind 公布 Genie 模型,可生成可交互的虚拟环境

Google DeepMind 公布 Genie 模型,可生成可交互的虚拟环境 Google DeepMind 今天介绍了 Genie ,一种根据互联网视频训练的基础世界模型,可以从合成图像、照片甚至草图生成无数种可玩(动作可控)的世界。 Genie 可以用它以前从未见过的图像来作为输入,使人们能够与生成的虚拟世界进行交互。它由一个时空视频标记器、一个自回归动力学模型和一个简单且可扩展的潜在行动模型组成。该模型可根据没有任何标注数据的公开互联网视频的大型数据集进行训练。该模型当前专注于 2D 平台游戏和机器人的视频,但其方法是通用的,并且可以扩展到任何类型的领域和更大的数据集。 团队还通过使用 Google 的 RT-1 机器人的摄像头视频数据训练模型,表明 Genie 能够学习与现实世界一致的动作空间。这可能产生一个现实世界模拟器,以便训练未来的通用智能体。 ,

封面图片

谷歌 DeepMind 推出活细胞人工智能模型

谷歌 DeepMind 推出活细胞人工智能模型 谷歌的 DeepMind 推出了一个人工智能模型,用于研究生命的基本构成要素及其在细胞内的相互作用,推动了揭示疾病秘密和寻找疾病(如癌症)疗法的努力。根据周三在《自然》期刊上发表的一篇论文,最初于2018年开发的AlphaFold 3对微小生物结构外观和相互作用做出了迄今最精确的预测。同构实验室的首席人工智能官马克斯•贾德伯格表示,AlphaFold 3的能力为研究人员提供了新的机会,可以迅速识别潜在的新药分子。同构实验室与制药公司礼来和诺华有合作关系。“这使得我们的科学家和药物设计师能够在原子水平上创造和测试假设,并且在几秒钟内使用AlphaFold 3生成高度准确的结构预测。”贾德伯格说,“与可能需要数月甚至数年的实验相比,这是非常快速的。”AlphaFold 3展示了“显著提高”的预测准确性,超过了许多现有的专业工具,包括基于前两代技术的工具。研究表明,开发正确的人工智能深度学习框架,可以大大减少获取“生物相关性能”所需的数据量。

封面图片

Reddit 上的一个帖子,很厉害,利用简陋的 3D 模型动画和 Animatediff 生成 高度自定义的 2D 动画。

Reddit 上的一个帖子,很厉害,利用简陋的 3D 模型动画和 Animatediff 生成 高度自定义的 2D 动画。 B 站前段时间胶囊计划有个片子也是类似的处理方式。 具体的工作流为: 将文本转化为3D效果: 由LumaLabs提供技术支持 背景设计: 使用ComfyUI和Photoshop的生成式填充功能 3D动画制作: 采用Mixamo和Blender工具 2D风格动画: 由ComfyUI提供支持 所有其他特效: 通过After Effects实现

封面图片

苹果推出300亿参数多模态大模型 全面转向生成式AI

苹果推出300亿参数多模态大模型 全面转向生成式AI 就在近日,苹果公司研发团队发布了一篇论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》,首次公布了多模态大模型MM1,展示了该公司在AI方面的进展与实力。据悉,MM1最高参数量为300亿,该模型支持增强的上下文学习和多图像推理,在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验,找出影响大模型表现的关键因素。有趣的是,图像分辨率和图像标签数量比视觉语言连接器的影响更大,不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新,包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性,将大规模预训练与战略性数据选择相结合,以增强模型的学习能力。研发团队称,MM1不仅在预训练指标中是“最先进的”,并且在一系列已建立的多模态基准测试中,经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理,使得少数样本的思维链提示成为可能。然而,目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4,虽然MM1可能还不是绝对的领导者,但它仍然是苹果在AI方面的一次重大飞跃。与此同时,苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长,这是实现设备上高效处理的关键因素。收购完成后,DarwinAI的网站和社交媒体账户已悄然下线。据悉,数十名DarwinAI员工已经加入了苹果的AI部门,作为交易的一部分,滑铁卢大学的AI研究员Alexander Wong已加入苹果,担任AI团队的总监。 ... PC版: 手机版:

封面图片

CodeGeeX:这是一个具有 130 亿参数的大规模多语言代码生成模型,开源版的copilot,CodeGeeX是一个具有13

CodeGeeX:这是一个具有 130 亿参数的大规模多语言代码生成模型,开源版的copilot,CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型。支持生成Python、C++、Java、JavaScript和Go等多种主流编程语言的代码 ​​​ ||

封面图片

谷歌 DeepMind 推出 SynthID 工具,能在 AI 生成的图像中嵌入隐形水印

谷歌 DeepMind 推出 SynthID 工具,能在 AI 生成的图像中嵌入隐形水印 谷歌 DeepMind 团队今日推出了一款名为 SynthID 的工具,可以在 AI 生成的图像中嵌入人眼不可见的水印,但可以用专门的人工智能检测工具检测出来,以便于区分真实和虚假的内容。 SynthID 的原理是在图像的像素中嵌入一个水印,但不会影响图像本身的质量和体验。该水印可以抵抗裁剪、缩放等常见的图片编辑操作,只有专门的 AI 检测工具才能识别出来。 谷歌 DeepMind 的 CEO Demis Hassabis 表示,SynthID 是为了解决深度伪造(deepfake)等潜在危险的问题而开发的。他认为,在 2024 年美国和英国即将举行大选的背景下,建立 AI 图像识别系统是非常重要的。他还表示,SynthID 的基本思想也可以应用于视频和文本等其他媒体。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人