：一种新的生成式交互环境模型，能通过无监督学习，用未标注的互联网视频数据训练而成。

：一种新的生成式交互环境模型，能通过无监督学习，用未标注的互联网视频数据训练而成。 Genie具有11B参数，能将文本、合成图像、照片甚至手绘草图转换为可交互的虚拟世界。这一模型打破了传统世界模型需要特定领域数据和动作标签的局限，通过学习潜动作空间，实现了对生成环境的逐帧控制。研究表明，Genie不仅能够创造多样的互动体验，还能够训练未来的通用智能体，通过对未见过的视频进行模仿学习，预示着人工智能领域迈向开放式学习和创造无限数据的新时代。

在Telegram中查看

相关推荐

Google DeepMind 公布 Genie 模型，可生成可交互的虚拟环境

Google DeepMind 公布 Genie 模型，可生成可交互的虚拟环境 Google DeepMind 今天介绍了 Genie ，一种根据互联网视频训练的基础世界模型，可以从合成图像、照片甚至草图生成无数种可玩（动作可控）的世界。 Genie 可以用它以前从未见过的图像来作为输入，使人们能够与生成的虚拟世界进行交互。它由一个时空视频标记器、一个自回归动力学模型和一个简单且可扩展的潜在行动模型组成。该模型可根据没有任何标注数据的公开互联网视频的大型数据集进行训练。该模型当前专注于 2D 平台游戏和机器人的视频，但其方法是通用的，并且可以扩展到任何类型的领域和更大的数据集。团队还通过使用 Google 的 RT-1 机器人的摄像头视频数据训练模型，表明 Genie 能够学习与现实世界一致的动作空间。这可能产生一个现实世界模拟器，以便训练未来的通用智能体。 ,

| #指南LLMs，即大型语言模型（Large Language Models），是一种基于人工智能和机器学习技术构建的先进模型

| #指南 LLMs，即大型语言模型（Large Language Models），是一种基于人工智能和机器学习技术构建的先进模型，旨在理解和生成自然语言文本。这些模型通过分析和学习海量的文本数据，掌握语言的结构、语法、语义和上下文等复杂特性，从而能够执行各种语言相关的任务。LLM的能力包括但不限于文本生成、问答、文本摘要、翻译、情感分析等。 LLMs例如GPT、LLama、Mistral系列等，通过深度学习的技术架构，如Transformer，使得这些模型能够捕捉到文本之间深层次的关联和含义。模型首先在广泛的数据集上进行预训练，学习语言的一般特征和模式，然后可以针对特定的任务或领域进行微调，以提高其在特定应用中的表现。预训练阶段让LLMs掌握了大量的语言知识和世界知识，而微调阶段则使模型能够在特定任务上达到更高的性能。这种训练方法赋予了LLMs在处理各种语言任务时的灵活性和适应性，能够为用户提供准确、多样化的信息和服务。

人工智能垃圾开始污染互联网

人工智能垃圾开始污染互联网 5 月初，新闻网站评级公司 NewsGuard 发现 49 个假新闻网站使用人工智能生成内容。该公司联合创始人戈登·克罗维茨表示，截至 6 月底，这一数字已达到 277 个。“这个数字正在呈指数级增长，”克罗维茨说。并表示，这些网站的创建似乎是为了通过Google展示广告网络赚钱。研究人员还指出，人工智能技术有可能被用于制造政治虚假信息和用于黑客攻击的定向信息。网络安全公司Zscaler表示，现在判断人工智能是否被犯罪分子广泛使用还为时过早，但该公司预计人工智能将被用来创建高质量的的假冒钓鱼网页，这些网页旨在诱骗受害者下载恶意软件软件或泄露他们的用户名和密码。在YouTube上，ChatGPT淘金热正如火如荼地进行着。数十个提供如何利用OpenAI技术赚钱的建议的视频已被观看了数十万次。其中许多视频提出了涉及垃圾内容的可疑计划。有些视频告诉观众，他们每周可以赚到数千美元，敦促他们编写电子书或在博客上出售广告，这些博客上充斥着人工智能生成的内容，然后可以通过在谷歌搜索中弹出广告来获得广告收入。《Clarkesworld》杂志的出版商 Neil Clarke 表示，今年早些时候，该杂志不得不暂时停止接受在线投稿，因为数百个人工智能生成的故事让该杂志不堪重负。Clarke 表示，提交内容是由在线视频推动的，这些视频建议人们使用 ChatGPT 创建内容并向 Clarkesworld 投稿。如果互联网上越来越多地充斥着人工智能生成的内容，这可能会成为人工智能公司本身的问题。这是因为它们的大型语言模型在公共数据集上进行自我训练。随着这些数据集越来越多地充满人工智能生成的内容，研究人员担心语言模型将变得不那么有用，这种现象被称为“模型崩溃”。来源：

谷歌DeepMind推出Genie模型：110亿参数、可基于图片生成2D游戏

谷歌DeepMind推出Genie模型：110亿参数、可基于图片生成2D游戏另有一个动态模型，用于在给定潜在动作和过去帧token的情况下，预测视频的下一帧。这三个组件共同协作，使得Genie能够生成具有高度交互性和可控性的虚拟世界。Genie通过了网络上超过20万小时的2D游戏视频训练，目前只是一个研究预览版，这些游戏更像是2D平台游戏，而不是完全的VR游戏。此外，它能生成图像和其他资产，将你的草图变成一个完全实现的开放世界，然后根据玩家提供的操作预测下一个像素帧，Genie还可以应用于设计相关的创作领域，进一步拓宽了创作者的想象空间。 ... PC版：手机版：

是一个结合了视觉基础模型的系统，使用户能够超越语言格式与 ChatGPT 交互，解决复杂的视觉任务。

是一个结合了视觉基础模型的系统，使用户能够超越语言格式与 ChatGPT 交互，解决复杂的视觉任务。 ChatGPT 正在吸引跨领域的兴趣，因为它提供了一种语言界面，具有跨多个领域的卓越对话能力和推理能力。然而，由于 ChatGPT 是用语言训练的，它目前无法处理或生成来自视觉世界的图像。同时，Visual Foundation Models，如 Visual Transformers 或 Stable Diffusion，虽然表现出强大的视觉理解和生成能力，但它们只是特定任务的专家，具有一轮固定的输入和输出。为此，我们构建了一个名为 \textbf{Visual ChatGPT} 的系统，其中包含不同的视觉基础模型，使用户能够通过以下方式与 ChatGPT 进行交互： 1）不仅发送和接收语言，还发送和接收图像 2）提供复杂的视觉问题或视觉编辑指令，需要多个 AI 模型进行多步骤协作。 3) 提供反馈并要求更正结果。

#互联网观察 #APP

#互联网观察 #APP ▎Trancy AITalk：你的AI口语家教 Trancy AITalk是一款基于ChatGPT的口语练习应用程序。其最大特点是能够定制真实的口语对话场景，摆脱固定的学习内容，告别与语言教师交流时的紧张和尴尬 APPDO试用后，发现效果非常不错（帮我严谨地修改了我的半吊子日语 ▎与其他应用程序的不同之处 - 提供了多种训练模式，以满足不同语言水平的用户需求 - 口语重复训练，根据场景进行一对一的重复训练。同时提供语音评估服务，为每个句子提供实时反馈，帮助您改善发音 - ChatGPT对话训练，提供虚拟场景，让用户自由交谈。每个答案都是随机生成的，以确保场景的真实性。GPT还可以提供提示来帮助您回答 - 我们提供定制场景，让您有无限的可能性 ▎官网地址频道 @AppDoDo

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人