近日,谷歌的人工智能模型 Gemini 1.5 对 OpenAI Sora 生成的一段视频进行了评价,称其在视觉上很吸引人,但一

近日,谷歌的人工智能模型 Gemini 1.5 对 OpenAI Sora 生成的一段视频进行了评价,称其在视觉上很吸引人,但一些不合理之处可以看出其不是真实的视频。 双方分别发布了各自的最新技术:谷歌推出 Gemini 1.5 Pro,OpenAI 则推出了文本转视频工具 Sora。Sora 的发布时机引发猜测,有人认为 OpenAI 是为了转移公众对谷歌 Gemini 1.5 的注意力。 谷歌一位高管在 X 平台上分享了对 Sora 生成视频的详细分析,Gemini 1.5 Pro 以 Sora 生成的日本一条既有雪景又有樱花盛开的街道视频为例,指出视频存在明显不合理之处。 根据 Gemini 1.5 Pro 的分析,大雪纷飞和盛开的樱花同时出现并不符合常理,因为樱花通常在春季开放,不会伴有降雪。而且雪的下落方式非常均匀,这不是现实生活中通常的降雪方式。此外,视频中的人物虽然身处大雪环境,却并未穿着任何冬装,这也显得非常违和。 Gemini 1.5 在分析中总结道:“总而言之,这段视频虽然视觉上很吸引人,但其中的矛盾之处表明它并非现实生活中的场景。” Sora 是一款能够生成长达 60 秒视频的文本转视频工具,可以创建包含细节丰富的场景、复杂摄像机运动以及具有丰富情感的多个人物画面,许多人将其称为视频生成领域的 “ChatGPT 时刻”。 而谷歌的 Gemini 1.5 则拥有惊人的 100 万词条上下文窗口,远超 GPT-4 Turbo 的 12.8 万和 Anthropic Claude 2.1 的 20 万。这意味着它可以一次处理大量信息,包括 1 小时的视频、11 小时的音频以及超过 30,000 行代码或 70 万字的代码库。 via 匿名 标签: #Google #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

相关推荐

封面图片

Google Gemini 1.5 Pro 评价 OpenAI 最新 Sora 视频

Google Gemini 1.5 Pro 评价 OpenAI 最新 Sora 视频 让 Google Gemini 1.5 Pro 判断 OpenAI 在 TikTok 发布的最新 Sora 视频是否是 AI 生成的,有什么不合理的地方,它表示,这段视频是由人工智能生成的。视频中的蜜蜂飞得太快,而且不稳定,似乎能够瞬间改变方向。此外,蜜蜂的翅膀拍打方式也不真实。 TikTok 视频链接: via 匿名 标签: #Google #Gemini 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

谷歌宣布推出 Gemini 1.5 闪电模型等

谷歌宣布推出 Gemini 1.5 闪电模型等 当地时间5月14日,谷歌 DeepMind 首席执行官宣布推出 Gemini 1.5 闪电模型,该模型能够兼顾快速和成本效益。该公司还展示了 Astra 模型,该模型通过智能手机摄像头分析世界,并与用户进行对话。该公司将推出人工智能视频生成模型 Veo,对标 OpenAI 的文生视频模型 Sora。谷歌发布第六代 TPU 芯片 Trillium。谷歌宣布推出 Imagen 文生图模型,相较于其他同类产品具备更高的细节调整功能,逼真的光线和更少的干扰,能够从草图快速升成高分辨率图像。安卓15已融入谷歌 Gemini 大模型升级后能力,Android 15 Beta 2 将在当地时间5月15日正式推出。谷歌宣布推出全新音乐工具 Music AI Sandbox。 财联社、、、、、

封面图片

Poe 新增GPT-4o, Gemini 1.5 Flash,Gemini 1.5 Pro等模型

Poe 新增GPT-4o, Gemini 1.5 Flash,Gemini 1.5 Pro等模型 标签: #OpenAI #Poe #Gemini 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

Google发布Gemini 1.5 Flash人工智能模型 比Gemini Pro更轻便与易于使用

Google发布Gemini 1.5 Flash人工智能模型 比Gemini Pro更轻便与易于使用 Google DeepMind 首席执行官德米斯-哈萨比斯(Demis Hassabis)在一篇博客文章中写道:"[Gemini] 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。"Google之所以创建Gemini 1.5 Flash,是因为开发人员需要一个比Google今年2月发布的专业版更轻便、更便宜的型号。Gemini 1.5 Pro 比该公司去年底发布的 Gemini 原型更高效、更强大。Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之间,是Google在本地设备上运行的最小型号。尽管重量比 Gemini Pro 轻,但功能却同样强大。Google表示,这是通过一个名为"蒸馏"的过程实现的,即把 Gemini 1.5 Pro 中最基本的知识和技能转移到更小的型号上。这意味着,Gemini 1.5 Flash 将获得与 Pro 相同的多模态功能,以及长语境窗口(人工智能模型可一次性摄取的数据量),即一百万个词元。根据Google的说法,这意味着 Gemini 1.5 Flash 将能够一次性分析 1500 页的文档或超过 30000 行的代码库。Gemini 1.5 Flash(或这些型号中的任何一款)并非真正面向消费者。相反,它是开发人员利用Google设计的技术构建自己的人工智能产品和服务的一种更快、更便宜的方式。除了推出 Gemini 1.5 Flash 之外,Google还对 Gemini 1.5 Pro 进行了升级。该公司表示,已经"增强"了该模型编写代码、推理和解析音频与图像的能力。但最大的更新还在后面Google宣布将在今年晚些时候把该模型现有的上下文窗口增加一倍,达到 200 万个词元。这将使它能够同时处理两小时的视频、22 小时的音频、6 万多行代码或 140 多万字。Gemini 1.5 Flash 和 Pro 现在都可以在Google的人工智能工作室和顶点人工智能中进行公开预览。该公司今天还发布了新版 Gemma 开放模型,名为 Gemma 2。不过,除非你是开发人员或喜欢捣鼓构建人工智能应用程序和服务的人,否则这些更新其实并不适合普通消费者。 ... PC版: 手机版:

封面图片

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI 推出文本到视频人工智能模型 Sora 根据 OpenAI 的介绍博文,Sora 能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出,该模型能够理解物体"在物理世界中的存在方式",还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频,以及在现有视频中填充缺失的帧或扩展视频。OpenAI 的博文中包含的 Sora 生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹比如在一段博物馆的视频中,地板疑似在移动。OpenAI 表示,该模型"可能难以准确模拟复杂场景的物理现象",但总体而言,演示结果令人印象深刻。几年前,像 Midjourney 这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近,视频技术开始飞速进步:Runway 和 Pika 等公司都展示了自己令人印象深刻的文字转视频模型,而Google的 Lumiere 也将成为 OpenAI 在这一领域的主要竞争对手之一。与 Sora 类似,Lumiere 也为用户提供了文字转换视频的工具,还能让用户通过静态图像创建视频。Sora 目前只对"红队"人员开放,他们负责评估模型的潜在危害和风险。OpenAI 还向一些视觉艺术家、设计师和电影制片人提供访问权限,以获得反馈意见。它指出,现有模型可能无法准确模拟复杂场景的物理现象,也可能无法正确解释某些因果关系。本月早些时候,OpenAI 宣布将在其文本到图像工具 DALL-E 3 中添加水印,但指出这些水印"很容易去除"。与其他人工智能产品一样,OpenAI 将不得不面对人工智能逼真视频被误认为是真实视频的后果。 ... PC版: 手机版:

封面图片

谷歌升级Gemini 1.5 Pro AI可以听音频了

谷歌升级Gemini 1.5 Pro AI可以听音频了 Gemini 1.5 Pro被视为Gemini家族中的“中量级”(middle-weight)模型,其性能已经超越了最大规模、最强大的Gemini Ultra。谷歌表示,Gemini 1.5 Pro能够理解复杂指令,而且使用时无需对模型进行特别调整。需要指出的是,不通过Vertex AI的用户无法体验到Gemini 1.5 Pro的全部功能。目前,大众主要通过Gemini聊天机器人与Gemini大语言模型互动。尽管GeminiUltra为Gemini Advanced聊天机器人提供了强大支持,能理解较长的指令,但在反应速度上不及Gemini 1.5 Pro。除了Gemini 1.5 Pro的更新,谷歌还对其它大型人工智能模型进行了升级。特别是作为文本转图像生成模型的Imagen 2,它增强了Gemini的图像生成能力。通过引入图像外延(Outpainting)和内填(Inpainting)功能,用户现在能更灵活地对图像的元素进行添加或删除。为确保Imagen模型生成的图片版权和来源可追溯,谷歌为所有生成图片加入了SynthID数字水印技术。这种创新技术通过几乎不可见的水印明确标识图片来源,可以通过专用工具进行检测。Imagen模型的许多新特性,如图像外延和内填技术,已被其他文本转图像模型采用,例如Stability AI的Stable Cascade和Getty的Generative AI by iStock。此外,这些技术也被广泛应用于消费电子产品中,如三星Galaxy手机。除图像生成的创新外,谷歌还公开展示了一种结合人工智能生成回答和谷歌搜索结果的方法,旨在为用户提供更实时、更准确的信息。然而,大语言模型生成的回答并非总是精准无误,有时可能会误导用户。因此,谷歌对Gemini模型设置了一些限制,比如禁止回答与2024年美国大选相关的问题。此前,Gemini模型因在生成历史人物描述时出现不准确而受到批评。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人