实测发现Gemini的数据分析能力并不像Google声称的那么好

实测发现Gemini的数据分析能力并不像Google声称的那么好 但新的研究表明,这些模型实际上并不擅长这些事情。两项不同的研究调查了Google的Gemini模型和其他模型如何从海量数据中获得意义想想"战争与和平"长度的作品。这两项研究都发现,Gemini 1.5 Pro 和 1.5 Flash 很难正确回答有关大型数据集的问题;在一系列基于文档的测试中,这些模型只有 40% 50% 的时间给出了正确答案。"虽然像 Gemini 1.5 Pro 这样的模型在技术上可以处理较长的上下文,但我们看到很多案例表明,这些模型实际上并不能'理解'内容,"马萨诸塞大学阿默斯特分校博士后、其中一项研究的合著者 Marzena Karpinska 说。Gemini缺少上下文窗口模型的上下文或上下文窗口指的是模型在生成输出(如附加文本)之前考虑的输入数据(如文本)。一个简单的问题"谁赢得了 2020 年美国总统大选?- 可以作为上下文,电影剧本、节目或音频片段也是如此。随着上下文窗口的增加,可容纳文件的大小也会随之增加。Gemini 的最新版本可以接收多达 200 万个标记作为上下文。(标记"是原始数据的细分位,如"梦幻"一词中的音节"fan"、"tas"和"tic")。这相当于大约 140 万个单词、2 个小时的视频或 22 个小时的音频这是所有商用模型中最大的语境。在今年早些时候的一次简报会上,Google展示了几个预先录制的演示,旨在说明Gemini长语境功能的潜力。其中一个演示让Gemini 1.5 Pro 搜索阿波罗 11 号登月电视直播的记录(约 402 页),查找包含笑话的引语,然后在电视直播中找到与铅笔素描相似的场景。Google DeepMind 研究副总裁 Oriol Vinyals 主持了这次简报会,他用"神奇"来形容这个模型。他说:"[1.5 Pro]可以在每一页、每一个单词上执行此类推理任务。"但这可能有点夸张。在上述对这些能力进行基准测试的一项研究中,卡平斯卡与来自艾伦人工智能研究所和普林斯顿大学的研究人员一起,要求模型评估有关英文小说的真/假语句。研究人员选择了近期的作品,这样模型就无法依靠预知来"作弊",而且他们还在语句中加入了具体细节和情节点,如果不阅读整本书,是无法理解这些细节和情节点的。Gemini 1.5 Pro 和 1.5 Flash 在阅读了相关书籍后,必须说出这句话的真假并说明理由。图片来源:UMass Amherst马萨诸塞大学阿默斯特分校研究人员对一本长度约为 26 万字(约 520 页)的书进行了测试,发现 1.5 Pro 在 46.7% 的时间内正确回答了真/假语句,而 Flash 仅在 20% 的时间内正确回答了真/假语句。这意味着硬币在回答有关这本书的问题时明显优于Google最新的机器学习模型。综合所有基准测试结果,两个模型的答题准确率都没有超过随机概率。卡平斯卡说:"我们注意到,与那些通过检索句子层面的证据就能解决的问题相比,模型在验证那些需要考虑书中较大部分甚至整本书内容的主张时会遇到更多困难。从质量上讲,我们还观察到,模型在验证有关隐含信息的主张时也很吃力,这些隐含信息对人类读者来说是明确的,但在文本中并没有明确说明。"两项研究中的第二项由加州大学圣巴巴拉分校的研究人员共同完成,测试了 Gemini 1.5 Flash(而非 1.5 Pro)"推理"视频的能力,即搜索并回答有关视频内容的问题。合著者创建了一个图像数据集(例如,一张生日蛋糕的照片),并配以问题让模型回答图像中描述的对象(例如,"这个蛋糕上有什么卡通人物?)为了对模型进行评估,他们随机挑选了其中一张图片,并在其前后插入"干扰"图片,以创建类似幻灯片的片段。Flash 的表现并不尽如人意。在一项让模型从 25 张图片的"幻灯片"中转录 6 位手写数字的测试中,Flash 的转录正确率约为 50%。八位数字的准确率下降到 30%。"在实际的图像问题解答任务中,我们测试的所有模型似乎都特别困难,"加州大学圣塔芭芭拉分校的博士生、该研究的共同作者之一迈克尔-萨克森(Michael Saxon)表示,"少量的推理识别出一个数字在一个框架中并读取它可能就是让模型失效的原因"。这两项研究都没有经过同行评议,也没有对 Gemini 1.5 Pro 和 1.5 Flash 的 200 万标记上下文版本进行测试(这两项研究都对 100 万标记上下文版本进行了测试)。(这两个版本都测试了 100 万标记上下文的版本)而且,Flash 在性能方面并不像 Pro 那样强大;Google 将其宣传为低成本的替代品。尽管如此,这两件事还是让人们更加确信,Google从一开始就对Gemini的承诺过高,而实际效果却不尽如人意。研究人员测试的所有模型,包括 OpenAI 的GPT-4o和 Anthropic 的Claude 3.5 Sonnet,都表现不佳。但Google是唯一一家在广告中将语境窗口放在首位的模型提供商。萨克森说:"根据客观的技术细节,简单地宣称'我们的模型可以接受 X 个词元'并没有错。但问题是,你能用它做什么有用的事情?"随着企业(和投资者)对生成式人工智能技术的局限性感到失望,这种技术正受到越来越多的关注。在波士顿咨询公司(Boston Consulting Group)最近进行的两项调查中,约有一半的受访者(均为 C-suite 高管)表示,他们并不指望人工智能生成技术能带来实质性的生产力提升,而且他们担心人工智能生成工具可能会导致错误和数据泄露。PitchBook 最近报告称,连续两个季度,生成式人工智能最早阶段的交易量出现下滑,从 2023 年第三季度的峰值骤降 76%。面对可以总结会议内容、虚构人物细节的聊天机器人,以及基本上等同于剽窃生成器的人工智能搜索平台,客户们正在寻找有前途的差异化产品。Google一直在追赶其人工智能生成器竞争对手,有时甚至是笨拙地追赶,它急切地想让Gemini的语境成为这些差异化因素之一。但现在看来,这个赌注还为时过早。卡平斯卡说:"我们还没有找到一种方法来真正证明对长文档的'推理'或'理解'正在发生,而且基本上每个发布这些模型的小组都在拼凑他们自己的临时验证来做出这些宣称。在不了解长上下文处理是如何实现的情况下而公司并不分享这些细节很难说这些说法有多现实。"Google没有回应置评请求。萨克森和卡平斯卡都认为,要消除生成式人工智能的夸大宣传,就必须制定更好的基准,同时更加重视第三方的批评意见。萨克森指出,Google在其营销材料中大量引用的"大海捞针"(need in the haystack)是一种更常见的长语境测试方法,它只能衡量模型从数据集中检索特定信息(如姓名和数字)的能力,而不能回答有关这些信息的复杂问题。"所有科学家和大多数使用这些模型的工程师基本上都认为,我们现有的基准文化已经崩溃,"萨克森说,"因此,重要的是公众要明白,对这些包含'跨基准的通用智能'等数字的巨型报告,要慎重对待。" ... PC版: 手机版:

相关推荐

封面图片

Gemini 数据分析能力并不像宣称的那么好

Gemini 数据分析能力并不像宣称的那么好 谷歌 AI 模型 Gemini 1.5 Pro 和 1.5 Flash 据称能够凭借其“长上下文”完成以前不可能完成的任务,例如总结数百页的文档或搜索电影镜头中的场景。但新的研究表明,这些模型实际上在这些方面并不是很擅长。两项独立研究调查了 Gemini 模型和其他模型如何很好地理解大量数据。两项研究都发现 Gemini 1.5 Pro 和 1.5 Flash 很难正确回答有关大型数据集的问题;在一系列基于文档测试中,这些模型给出正确答案的概率只有40%到50%。 马萨诸塞大学阿默斯特分校博士后、其中一项研究的合著者 Marzena Karpinska 说:“虽然像 Gemini 1.5 Pro 这样的模型在技术上可以处理长篇上下文,但我们已经看到许多案例表明,这些模型实际上并不‘理解’内容。”

封面图片

ℹGoogle 发布新一代语言模型 Gemini 1.5 ,可支援 100 万 token 上下文理解能力#

ℹGoogle 发布新一代语言模型 Gemini 1.5 ,可支援 100 万 token 上下文理解能力# Google 推出 Gemini 1.0 后一直在测试、完善和增强 Gemini 的能力,也终于在 2 月 15 日宣布推出新一代的 Ge...

封面图片

Google的下一代人工智能模型Gemini 1.5已基本准备就绪

Google的下一代人工智能模型Gemini 1.5已基本准备就绪 Gemini 1.5 有很多改进:Gemini 1.5 Pro(Google系统中的通用模型)与该公司最近才推出的高端 Gemini Ultra 能力不相上下,而且在 87% 的基准测试中,它都优于 Gemini 1.0 Pro。它采用了一种越来越常见的技术,即"专家混合"(MoE),这意味着当你发送查询时,它只运行整个模型的一部分,而不是一直处理整个模型。这种方法能让用户更快地使用模型,也能让 Google 更高效地运行模型。但是,Gemini 1.5 中的一个新功能让整个公司都特别兴奋:Gemini 1.5 有一个巨大的上下文窗口,这意味着它可以处理更大的查询,一次查看更多的信息。这个窗口高达 100 万个tokens,而 OpenAI 的 GPT-4 为 12.8 万个,目前的 Gemini Pro 为 3.2 万个。"这大约相当于是 10 或 11 个小时的视频,数万行代码"。上下文窗口意味着可以一次性向人工智能机器人询问所有内容。Google CEO皮查伊还表示,研究人员正在测试一个 1000 tokens的上下文窗口这就好比是将《权力的游戏》的整个系列同时播出,或者把整个《指环王》三部曲都放进这个上下文窗口中。这允许在查询时添加大量个人上下文和信息,就像我们极大地扩展了查询窗口一样。目前,Gemini 1.5 只能通过Google的顶点人工智能(Vertex AI)和人工智能工作室(AI Studio)提供给企业用户和开发人员。最终,它将取代Gemini 1.0,而Gemini专业版的标准版本每个人都可以在gemini.google.com和公司的App中使用的版本将是 1.5 专业版,拥有128000 个tokens的上下文窗口,而需要支付额外的费用才能获得百万级的权限。Google还在测试该模式的安全性和道德底线,尤其是新增加的上下文窗口。当全球企业都在试图制定自己的人工智能战略以及是与 OpenAI、Google还是其他公司签署开发者协议时,Google正在为打造最好的人工智能工具而展开一场激烈的竞赛。就在本周,OpenAI 公布了ChatGPT的"记忆能力",同时似乎准备进军网络搜索领域。到目前为止,Gemini 似乎给人留下了深刻印象,尤其是对于那些已经进入Google生态系统的人来说,但各方都还有很多工作要做。最终,所有这些 1.0、1.5、Pro、Ultras 和企业之争对用户来说并不重要。人们将只需要感受AI,这就像使用智能手机,而不必总是关注手机里面的处理器是怎么工作的。 ... PC版: 手机版:

封面图片

Google发布Gemini 1.5 Flash人工智能模型 比Gemini Pro更轻便与易于使用

Google发布Gemini 1.5 Flash人工智能模型 比Gemini Pro更轻便与易于使用 Google DeepMind 首席执行官德米斯-哈萨比斯(Demis Hassabis)在一篇博客文章中写道:"[Gemini] 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。"Google之所以创建Gemini 1.5 Flash,是因为开发人员需要一个比Google今年2月发布的专业版更轻便、更便宜的型号。Gemini 1.5 Pro 比该公司去年底发布的 Gemini 原型更高效、更强大。Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之间,是Google在本地设备上运行的最小型号。尽管重量比 Gemini Pro 轻,但功能却同样强大。Google表示,这是通过一个名为"蒸馏"的过程实现的,即把 Gemini 1.5 Pro 中最基本的知识和技能转移到更小的型号上。这意味着,Gemini 1.5 Flash 将获得与 Pro 相同的多模态功能,以及长语境窗口(人工智能模型可一次性摄取的数据量),即一百万个词元。根据Google的说法,这意味着 Gemini 1.5 Flash 将能够一次性分析 1500 页的文档或超过 30000 行的代码库。Gemini 1.5 Flash(或这些型号中的任何一款)并非真正面向消费者。相反,它是开发人员利用Google设计的技术构建自己的人工智能产品和服务的一种更快、更便宜的方式。除了推出 Gemini 1.5 Flash 之外,Google还对 Gemini 1.5 Pro 进行了升级。该公司表示,已经"增强"了该模型编写代码、推理和解析音频与图像的能力。但最大的更新还在后面Google宣布将在今年晚些时候把该模型现有的上下文窗口增加一倍,达到 200 万个词元。这将使它能够同时处理两小时的视频、22 小时的音频、6 万多行代码或 140 多万字。Gemini 1.5 Flash 和 Pro 现在都可以在Google的人工智能工作室和顶点人工智能中进行公开预览。该公司今天还发布了新版 Gemma 开放模型,名为 Gemma 2。不过,除非你是开发人员或喜欢捣鼓构建人工智能应用程序和服务的人,否则这些更新其实并不适合普通消费者。 ... PC版: 手机版:

封面图片

Google Gemini模型已上线Poe

Google Gemini模型已上线Poe Google Gemini模型现已上线Poe,支持上传图片,官方介绍:这是谷歌Gemini家族的多模态模型的Beta版本,该模型在模型性能和速度之间实现了平衡。该模型展现了优秀的通用能力,尤其擅长跨模态推理,并支持最大32k个tokens的上下文窗口。 via 匿名 标签: #Google #Gemini #Poe 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

Google宣布 Gemini Pro 登陆 Android Studio

Google宣布 Gemini Pro 登陆 Android Studio 今天,Google将这一体验升级为在更先进的Gemini 1.0 Pro 模型上运行,公司承诺将"显著提高响应质量"。在升级模型的同时,Studio Bot 也将更名为"Gemini in Android Studio"。近几个月来,Google已逐步将其人工智能产品统一到 Gemini 名称下,这与微软围绕"Copilot"所做的类似努力不谋而合。除了回答问题,如果你允许 Gemini 读取你的代码,它还能提供基于上下文的代码补全。如果你想要这些上下文建议,但又不想让 Gemini 访问某些文件或文件夹,你可以创建一个".aiexclude"文件来阻止访问。这样,你就可以完全控制 Gemini 在提供代码补全和其他人工智能功能时可以使用的上下文。要获得Android Studio 中 Gemini 的完整体验,您需要运行预览版,如最新的 Android Studio Jellyfish 测试版。Google尚未公布 Gemini in Android Studio 的最终定价,但180 多个受支持地区的开发人员在预览期间可以免费使用。同时,Gemini 还能帮助您创建自己的人工智能体验。在最新的 Android Studio Canary 版本(目前为 Koala)中可以找到新的"Gemini API Starter"项目模板,它为开始使用基于文本和图像的 Google AI 创建了一个简单的基础。要获得更完整的示例,还包括一个新的"Google Generative AI"代码示例。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人