Google推出Lumiere人工智能视频创作系统

Google推出Lumiere人工智能视频创作系统它可以截取一张图片，克隆出该图片的风格，然后利用这种风格制作出大量其他主题的视频，这些视频看起来和感觉上都非常相似，简直就像是从一家品牌代理公司制作出来的。它可以使用你自己的源视频，把所有东西都变成乐高、折纸或花朵你只需要告诉它。从上面的演示中可以看出，Lumiere 拥有迄今为止我们所见过的最先进的视频内画功能。你只需在不喜欢的画面部分涂上颜色，Lumiere 就会自动填充该区域，效果美轮美奂，如果你不仔细看，可能根本不会注意到。前男友出现在你最喜欢的视频中？不会太久的。相关研究团队表示，Lumiere 的"时空 U 型网络架构"能一次性构建视频的整个长度而以前的模型通常是先生成起始帧和结束帧，然后再猜测中间会发生什么。不管怎么做，结果不言自明这是生成式人工智能视频的新技术水平。Inpainting功能令人难以置信；只需空白部分画面，它就会帮你补上。目前，这只是一个研究项目这样Google就不必为了版权、虚假信息、安全、仇恨言论、裸体、隐私和其他各种政策而大力阉割系统这一过程必然会导致这些生成模型的输出质量下降。 ... PC版：手机版：

在Telegram中查看

相关推荐

Google新型人工智能可将图像转化为可玩的小游戏

Google新型人工智能可将图像转化为可玩的小游戏 Google DeepMind 最近发布了一款人工智能模型 Genie，它可以利用静态图像制作小型互动游戏。Google表示，这项技术背后的基础可以促进其他应用，比如训练人工智能机器人。Genie是在大约 20 万小时的公开游戏画面（可能来自Google子公司 YouTube）基础上训练出来的。目前还不清楚使用它的人是否会与这些游戏的创作者发生版权纠纷。值得注意的是，人工智能不需要文本或动作标签来解释它所看到的内容，它只需通过视频帧来解读哪些元素应作为地形，哪些元素应作为可控制的头像。Genie还能解读图像中的三维深度，从而在游戏中模拟视差滚动。该工具可以根据绘画、草图、渲染图、照片和其他类型的图像构建小型视频游戏关卡。由于Genie可以处理它以前从未见过的图片，因此它还可以根据人工智能生成的内容构建环境，从而为使用一个人工智能的内容在另一个人工智能中创造新事物开辟了前景。不过，还有改进的余地。与其他人工智能模型一样，Genie也会产生幻觉。此外，最初的迭代版本只能记忆多达 16 个帧，这严重限制了它在保持一致的情况下构建关卡的大小。该模型 1fps 的运行速度也有很大的改进空间。为确保准确性，Genie 的初步演示侧重于复制 2D 平台游戏。不过，Google表示，可以训练它创建其他类型的游戏和虚拟内容。例如，Google表示，Genie 可以帮助更有效地训练某些机器人。使用人工模拟进行的训练只能提供有限的场景，而 Genie 可以构建更广泛的虚拟环境和对象，供机器人学习。通过进一步开发，Genie 可以将交互式布景变成生成式人工智能的下一个主要领域。目前，视频正成为人们关注的焦点，尤其是 OpenAI 在上个月推出了 Sora，它可以制作逼真的 60 秒 1080p 短片。不出所料，人工智能生成的视频并不完美，但它代表了该技术的重大飞跃。 ... PC版：手机版：

Google推出人工智能图像生成工具TextFX

Google推出人工智能图像生成工具TextFX Google在一篇博文中写道："ImageFX 专为实验和创意而设计，它可以让你通过简单的文字提示来创建图片，然后通过使用表现力芯片的新提示方式轻松修改图片。"Google声称，它已采取措施确保 TextFX 不会被以非预期的方式使用，例如通过添加"技术保障"来限制"有问题的输出"，如暴力、攻击性和色情内容。TextFX 还为"指定人物"（可能是公众人物）设置了一个提示级过滤器尽管Google在其新闻材料中并没有特别明确这一点。"我们从一开始就对训练数据的安全性进行了投资，"Google说。"根据我们的人工智能原则，我们还进行了广泛的对抗性测试和红队合作，以识别和减少潜在的有害和有问题的内容"。作为一项额外的安全措施，Google在使用ImageFX制作的图片上标注了SynthID数字水印，据称这种数字水印对图片编辑和裁剪具有很强的抵御能力。Google在博文中继续介绍道："SynthID 水印肉眼无法察觉，但可用于识别。通过'关于此图片'中增加的洞察力，当你在Google搜索或 Chrome 浏览器中看到一张图片时，你就会知道它是否可能是由Google的人工智能工具生成的。"你可以在Google用于人工智能实验项目的网络应用程序 AI Test Kitchen 中找到 ImageFX。Imagen 2 扩展在今天的相关新闻中，Google表示，从本周开始，它将把 Imagen 2 带到更多的产品和服务中，包括下一代人工智能搜索体验和人工智能托管服务 Vertex AI 系列。现在，Imagen 2 还支持Google广告中的文本到图片功能和Google GenAI 生产力产品套件 Workspace 中的 Duet AI，它已经进入了Google的 SGE（搜索生成体验）。SGE 于去年 10 月开始在Google图片搜索中为用户提供图片生成工具，现在则利用 Imagen 2 生成图片。用户可以输入一个提示，说明他们想要什么样的图片，SGE 会在 SGE 对话体验中直接返回四个结果。Imagen 2 的另一个样本在 Vertex AI 中，Imagen 2 可通过 API 提供给Google云客户。在其他地方，Imagen 2 现在可以通过Google的人工智能聊天机器人 Bard 调用。Google解释说："有了Imagen 2，Bard可以理解简单或复杂的提示，这样你就可以生成一系列高质量的图像。只需输入一个描述比如'创建一个狗骑冲浪板的图像'Bard就会生成定制的、范围广泛的视觉图像，帮助你把想法变为现实。"Google仍未透露用于训练 Imagen 2 的数据，这并不令人意外。像Google这样的 GenAI 供应商是否可以在公开数据（甚至是受版权保护的数据）上训练模型，然后再将该模型商业化，这是一个未决的法律问题。相关诉讼正在法院审理中，供应商认为他们受到合理使用原则的保护。但尘埃落定尚需时日。与此同时，Google对此事保持沉默，以策安全。 ... PC版：手机版：

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI 推出文本到视频人工智能模型 Sora 根据 OpenAI 的介绍博文，Sora 能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出，该模型能够理解物体"在物理世界中的存在方式"，还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频，以及在现有视频中填充缺失的帧或扩展视频。OpenAI 的博文中包含的 Sora 生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹比如在一段博物馆的视频中，地板疑似在移动。OpenAI 表示，该模型"可能难以准确模拟复杂场景的物理现象"，但总体而言，演示结果令人印象深刻。几年前，像 Midjourney 这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近，视频技术开始飞速进步：Runway 和 Pika 等公司都展示了自己令人印象深刻的文字转视频模型，而Google的 Lumiere 也将成为 OpenAI 在这一领域的主要竞争对手之一。与 Sora 类似，Lumiere 也为用户提供了文字转换视频的工具，还能让用户通过静态图像创建视频。Sora 目前只对"红队"人员开放，他们负责评估模型的潜在危害和风险。OpenAI 还向一些视觉艺术家、设计师和电影制片人提供访问权限，以获得反馈意见。它指出，现有模型可能无法准确模拟复杂场景的物理现象，也可能无法正确解释某些因果关系。本月早些时候，OpenAI 宣布将在其文本到图像工具 DALL-E 3 中添加水印，但指出这些水印"很容易去除"。与其他人工智能产品一样，OpenAI 将不得不面对人工智能逼真视频被误认为是真实视频的后果。 ... PC版：手机版：

Google为Workspace推出人工智能辅助视频工具Vids

Google为Workspace推出人工智能辅助视频工具Vids Vids 提供了一个时间轴界面，可按时间顺序将 Drive 或其他地方的视频资产组合在一起。这与 Slides 允许用户在幻灯片的左右时间轴中排列内容的方式类似。用户可以在应用程序中录制配音或拍摄自己。有多种模板和背景可供选择，还有一个用于添加视频、图片或音频的媒体库。Google的人工智能助手可以生成初始故事板、脚本或文本到语音的配音，从而加快整个过程。Google介绍说：它可以生成一个您可以轻松编辑的故事板，在选择风格后，它还可以将您的初稿与素材视频、图片和背景音乐中的建议场景组合在一起。它还可以帮助您为信息配上合适的配音可以从我们的预设配音中选择，也可以使用您自己的配音。Vids的设计目标是消除对视频制作专业知识的需求，让任何员工都能快速轻松地制作培训视频、演示文稿、更新或营销内容。初步测试表明，大多数视频平均时长不到三分钟，就像OpenAI 的 Sora 视频应用程序一样。Vids 不仅能导出完成的视频，还能实现深度协作。用户可以分享他们创建的视频，并邀请其他人发表评论、做笔记，甚至直接编辑视频。评论和修改都是在线可见的，这体现了Google努力使生产力工具像文档和电子表格一样灵活用于协作。虽然 Loom 和 ClickUp 等其他服务也提供类似功能，但通过与 Gmail、Calendar、Docs 和其他 Workspace 产品的合作，Google在整合方面具有很大的优势。移动应用程序也在开发中，可以方便地在旅途中创建视频。 ... PC版：手机版：

谷歌将生成式人工智能引入 Google 地图

谷歌将生成式人工智能引入 Google 地图当地时间2月1日，谷歌宣布推出使用生成式人工智能来发现地点的新方法。只需用户说出要寻找的内容 (无论是多么具体、独特或广泛)，谷歌的大语言模型 (LLM) 就会分析 Google 地图上超过 2.5 亿个地点的详细信息以及来自超过 3 亿贡献者的社区的可信见解，从而快速提出去哪里的建议。这项早期访问实验将于本周在美国启动。

Google Photos推出人工智能搜索功能"Ask Photos"

Google Photos推出人工智能搜索功能"Ask Photos" Google周二在其年度GoogleI/O 2024开发者大会上宣布，以前用户可以在照片中搜索特定的人、地点或事物，但由于有了自然语言处理技术，人工智能的升级将使用户更直观地找到正确的内容，减少人工搜索过程。例如，你现在可以让人工智能做一些更复杂的事情，比如从"我去过的每个国家公园"中找出"最好的照片"，而不是在照片中搜索"埃菲尔铁塔"这样的特定内容。人工智能会使用各种信号来确定照片中的"最佳"照片，包括光线、模糊程度、背景是否失真等。然后，它可以将这些信号与对一组照片或日期的地理位置的理解结合起来，只检索在美国国家公园拍摄的照片。该功能基于Google照片最近推出的"照片栈"（Photo Stacks）。"照片栈"将近乎重复的照片组合在一起，并利用人工智能突出显示组中最好的照片。与"照片栈"功能一样，该功能的目的也是帮助人们随着数码收藏的增加找到自己想要的照片。据Google公司称，每天上传到Google照片中的图片超过 60 亿张，这足以说明其规模之大。此外，"询问照片"功能还允许用户通过提问获得其他有用的答案。除了询问度假或其他群组中的最佳照片外，用户还可以提出一些需要对照片中的内容有近乎人类理解的问题。例如，家长可以询问Google照片在孩子最近的四次生日派对中使用了什么主题，Google照片就会给出一个简单的答案，并提供有关美人鱼、公主和独角兽主题的照片和视频，以及使用时间。之所以能实现这种查询，是因为Google照片不仅能理解你输入的关键字，还能理解自然语言概念，比如"主题生日派对"。它还能利用人工智能的多模态能力，了解照片中是否有可能与查询相关的文字。首席执行官桑达尔-皮查伊（Sundar Pichai）在今天的Google I/O 开发者大会前向媒体展示的另一个例子显示，一位用户要求人工智能向他们展示孩子的游泳进展。人工智能打包了孩子游泳时的照片和视频集锦。另一项新功能是利用搜索功能从照片中的文字中找到答案。这样，您就可以拍下您想记住的东西的照片，比如您的车牌号或护照号码，然后在需要时让人工智能检索这些信息。如果人工智能弄错了，而你纠正了它也许是标记了一张不是生日派对的照片，或者是一张你不会突出显示的度假照片它会记住你的反应，并随着时间的推移不断改进。这也意味着，随着你与人工智能互动的时间越长，人工智能就会变得越个性化。当你找到准备分享的照片时，人工智能可以帮助你起草标题，概括照片的内容。目前，这只是一个基本的摘要，并不提供不同风格的选择。Google表示，它将在某些情况下设置不作出回应的防护措施，在训练模型时，它也不包含潜在的攻击性内容。但该功能是作为一项实验推出的，因此随着Google对人们如何使用该功能做出回应，可能还需要增加额外的控制措施。"询问照片"功能最初将在美国支持英文版，然后再推广到更多市场。该功能目前还只是一个基于文本的功能，类似于向人工智能聊天机器人提问。不过，随着时间的推移，它可能会像在Android系统上一样，与设备上运行的 Gemini 进行更深入的整合。该公司表示，Google照片中的用户个人数据不会被用于广告。Google表示，人类也不会审查Ask Photos中的人工智能对话和个人数据，除非"在极少数情况下处理滥用或伤害"。Google照片中的用户个人数据也不会用于训练任何其他生成式人工智能产品，比如Gemini。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人