近日，谷歌的人工智能模型 Gemini 1.5 对 OpenAI Sora 生成的一段视频进行了评价，称其在视觉上很吸引人，但一

近日，谷歌的人工智能模型 Gemini 1.5 对 OpenAI Sora 生成的一段视频进行了评价，称其在视觉上很吸引人，但一些不合理之处可以看出其不是真实的视频。双方分别发布了各自的最新技术：谷歌推出 Gemini 1.5 Pro，OpenAI 则推出了文本转视频工具 Sora。Sora 的发布时机引发猜测，有人认为 OpenAI 是为了转移公众对谷歌 Gemini 1.5 的注意力。谷歌一位高管在 X 平台上分享了对 Sora 生成视频的详细分析，Gemini 1.5 Pro 以 Sora 生成的日本一条既有雪景又有樱花盛开的街道视频为例，指出视频存在明显不合理之处。根据 Gemini 1.5 Pro 的分析，大雪纷飞和盛开的樱花同时出现并不符合常理，因为樱花通常在春季开放，不会伴有降雪。而且雪的下落方式非常均匀，这不是现实生活中通常的降雪方式。此外，视频中的人物虽然身处大雪环境，却并未穿着任何冬装，这也显得非常违和。 Gemini 1.5 在分析中总结道：“总而言之，这段视频虽然视觉上很吸引人，但其中的矛盾之处表明它并非现实生活中的场景。” Sora 是一款能够生成长达 60 秒视频的文本转视频工具，可以创建包含细节丰富的场景、复杂摄像机运动以及具有丰富情感的多个人物画面，许多人将其称为视频生成领域的 “ChatGPT 时刻”。而谷歌的 Gemini 1.5 则拥有惊人的 100 万词条上下文窗口，远超 GPT-4 Turbo 的 12.8 万和 Anthropic Claude 2.1 的 20 万。这意味着它可以一次处理大量信息，包括 1 小时的视频、11 小时的音频以及超过 30,000 行代码或 70 万字的代码库。 via 匿名标签: #Google #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

在Telegram中查看

相关推荐

Google Gemini 1.5 Pro 评价 OpenAI 最新 Sora 视频

Google Gemini 1.5 Pro 评价 OpenAI 最新 Sora 视频让 Google Gemini 1.5 Pro 判断 OpenAI 在 TikTok 发布的最新 Sora 视频是否是 AI 生成的，有什么不合理的地方，它表示，这段视频是由人工智能生成的。视频中的蜜蜂飞得太快，而且不稳定，似乎能够瞬间改变方向。此外，蜜蜂的翅膀拍打方式也不真实。 TikTok 视频链接： via 匿名标签: #Google #Gemini 频道: @GodlyNews1 投稿: @GodlyNewsBot

谷歌宣布推出 Gemini 1.5 闪电模型等

谷歌宣布推出 Gemini 1.5 闪电模型等当地时间5月14日，谷歌 DeepMind 首席执行官宣布推出 Gemini 1.5 闪电模型，该模型能够兼顾快速和成本效益。该公司还展示了 Astra 模型，该模型通过智能手机摄像头分析世界，并与用户进行对话。该公司将推出人工智能视频生成模型 Veo，对标 OpenAI 的文生视频模型 Sora。谷歌发布第六代 TPU 芯片 Trillium。谷歌宣布推出 Imagen 文生图模型，相较于其他同类产品具备更高的细节调整功能，逼真的光线和更少的干扰，能够从草图快速升成高分辨率图像。安卓15已融入谷歌 Gemini 大模型升级后能力，Android 15 Beta 2 将在当地时间5月15日正式推出。谷歌宣布推出全新音乐工具 Music AI Sandbox。财联社、、、、、

OpenAI的首席技术官Mira Murati在接受华尔街日报采访时对Sora的进行了详细介绍。|

OpenAI的首席技术官Mira Murati在接受华尔街日报采访时对Sora的进行了详细介绍。| 发布时间：Sora目前还在开发和测试阶段，OpenAI计划在今年内的某个时间发布Sora，具体时间可能考虑到全球选举等因素，目前仍在打磨中，且正在进行外部测试，尤其关注电影行业的创作者。生成时间：关于生成视频的时间，720P分辨率或20秒长视频，生成时间大概在几分钟，这取决于提示的复杂性，这与传言中需要数个小时的说法不同，同时他们也在优化资源。目前视频没有声音，Sora未来可能会支持视频声效。数据来源：当被问及Sora训练的素材是否包括YouTube、Instagram和Facebook上的视频时，Mira Murati的回答是不确定的。她没有明确确认这些平台的视频是否被用作训练数据，称Sora的训练数据来自公开可用和授权的数据，最后结束后确认训练数据包括Shutterstock的内容。计算资源：Sora的生成过程相比于ChatGPT和DALI需要更多的计算资源，OpenAI致力于优化技术，降低成本，便于公众使用。安全性和可靠性：Sora目前正在进行红队测试（测试工具的安全性、可靠性和缺陷），以识别潜在的漏洞、偏见和其他有害问题。内容限制：与DALLE类似，Sora在生成内容时也会有一些限制，例如不生成公众人物的图像，以避免误导和滥用。裸露内容：关于裸露内容的处理，提到OpenAI正在与艺术家和创作者合作，以确定工具应该提供的灵活性水平和合理的限制，但没有具体提到如何区分艺术和色情的内容。正在研究对视频进行水印标记，但是相对一水印，视频内容的审核限制更为重要，因为随着生成的视频更加真实，用户将无法分辨视频内容的真实性，防止生成误导内容。

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI 推出文本到视频人工智能模型 Sora 根据 OpenAI 的介绍博文，Sora 能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出，该模型能够理解物体"在物理世界中的存在方式"，还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频，以及在现有视频中填充缺失的帧或扩展视频。OpenAI 的博文中包含的 Sora 生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹比如在一段博物馆的视频中，地板疑似在移动。OpenAI 表示，该模型"可能难以准确模拟复杂场景的物理现象"，但总体而言，演示结果令人印象深刻。几年前，像 Midjourney 这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近，视频技术开始飞速进步：Runway 和 Pika 等公司都展示了自己令人印象深刻的文字转视频模型，而Google的 Lumiere 也将成为 OpenAI 在这一领域的主要竞争对手之一。与 Sora 类似，Lumiere 也为用户提供了文字转换视频的工具，还能让用户通过静态图像创建视频。Sora 目前只对"红队"人员开放，他们负责评估模型的潜在危害和风险。OpenAI 还向一些视觉艺术家、设计师和电影制片人提供访问权限，以获得反馈意见。它指出，现有模型可能无法准确模拟复杂场景的物理现象，也可能无法正确解释某些因果关系。本月早些时候，OpenAI 宣布将在其文本到图像工具 DALL-E 3 中添加水印，但指出这些水印"很容易去除"。与其他人工智能产品一样，OpenAI 将不得不面对人工智能逼真视频被误认为是真实视频的后果。 ... PC版：手机版：

谷歌升级Gemini 1.5 Pro AI可以听音频了

谷歌升级Gemini 1.5 Pro AI可以听音频了 Gemini 1.5 Pro被视为Gemini家族中的“中量级”（middle-weight）模型，其性能已经超越了最大规模、最强大的Gemini Ultra。谷歌表示，Gemini 1.5 Pro能够理解复杂指令，而且使用时无需对模型进行特别调整。需要指出的是，不通过Vertex AI的用户无法体验到Gemini 1.5 Pro的全部功能。目前，大众主要通过Gemini聊天机器人与Gemini大语言模型互动。尽管GeminiUltra为Gemini Advanced聊天机器人提供了强大支持，能理解较长的指令，但在反应速度上不及Gemini 1.5 Pro。除了Gemini 1.5 Pro的更新，谷歌还对其它大型人工智能模型进行了升级。特别是作为文本转图像生成模型的Imagen 2，它增强了Gemini的图像生成能力。通过引入图像外延（Outpainting）和内填（Inpainting）功能，用户现在能更灵活地对图像的元素进行添加或删除。为确保Imagen模型生成的图片版权和来源可追溯，谷歌为所有生成图片加入了SynthID数字水印技术。这种创新技术通过几乎不可见的水印明确标识图片来源，可以通过专用工具进行检测。Imagen模型的许多新特性，如图像外延和内填技术，已被其他文本转图像模型采用，例如Stability AI的Stable Cascade和Getty的Generative AI by iStock。此外，这些技术也被广泛应用于消费电子产品中，如三星Galaxy手机。除图像生成的创新外，谷歌还公开展示了一种结合人工智能生成回答和谷歌搜索结果的方法，旨在为用户提供更实时、更准确的信息。然而，大语言模型生成的回答并非总是精准无误，有时可能会误导用户。因此，谷歌对Gemini模型设置了一些限制，比如禁止回答与2024年美国大选相关的问题。此前，Gemini模型因在生成历史人物描述时出现不准确而受到批评。 ... PC版：手机版：

人工智能公司 OpenAI 向好莱坞推荐视频生成技术Sora

人工智能公司 OpenAI 向好莱坞推荐视频生成技术Sora 人工智能公司 OpenAI 在好莱坞发起了魅力攻势，与派拉蒙、环球和华纳兄弟探索等主要电影公司举行了会议，展示其视频生成技术 Sora，并缓解对人工智能模型将损害电影行业的担忧。据多位知情人士透露，首席执行官萨姆•奥尔特曼和首席运营官布拉德•莱特卡普在最近几天举行的会议上向电影行业巨头的高管们做了介绍。奥尔特曼和莱特卡普展示了 Sora 一个新的生成式人工智能模型，能够根据简单的文字提示生成细节栩栩如生的视频。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人