GPT-4劲敌 Google进入高能+高产模式

GPT-4劲敌 Google进入高能+高产模式 一、极致性能背后的模型架构图源:X平台Alphabet与Google公司首席科学家Jeff Dean推文“巧合”的是,Open AI在Gemini 1.5 Pro官宣两小时发布Sora这枚重磅炸弹,颇有“一较高下”的劲头。只是由于当下大家的视线焦点集中在视频领域,Sora 又是 OpenAI 首次发布文生视频模型,所以无奈被抢了头条。图源:微博评论Gemini 1.5 Pro建立在谷歌对Transformer和MoE架构的领先研究之上。传统Transformer充当一个大型神经网络,而 MoE(Mixture of Experts 混合专家模型)模型则分为更小的“专家”神经网络。在这一结构之下,通过将模型参数划分为多个组别而实现的计算的稀疏化,即每次执行推理任务时,根据对输入类型的判断,MoE模型会通过门控网络选择性地激活神经网络中最契合指令的专家参与计算。这种专业化、模块化的划分可以在提升预训练计算效率的同时提升大模型处理复杂任务的性能,更快地学习复杂任务的同时保证准确性。与稠密模型相比,MoE模型的预训练速度更快;使用MoE 层代替transformer 中的前馈网络(FFN)层。因而对的采用可以弥补Transformer架构运算效率的问题。在Switch-Transformer、M4等领域,Google 一直是深度学习 MoE 技术的早期采用者。目前大部分大语言模型开源和学术工作都没有使用 MoE 架构。有消息称,GPT-4也采用了由 8 个专家模型组成的集成系统。2023年12月8日Mistral AI 发布的 Mixtral 8x7B 同样采用了这种架构。就国内的大模型而言,只有Minimax采用了MoE架构。二、扩容的上下文窗口意味着什么?虽然Gemini 1.5 Pro是 Gemini 1.5 系列的初代版本,但初代便表现不俗。扩大上下文窗口后的高水平性能是Gemini 1.5 Pro的一大亮点。多模态大模型卷到今日,上下文窗口容量已然成为提升其理解能力的关键掣肘。此前的SOTA模型将上下文窗口容量卷到了20万token。而谷歌的Gemini 1.5 Pro直接将上下文窗口容量提到了100万token(极限为1000万token),远远超出了 Gemini 1.0 最初的 32,000 个 token,创下了最长上下文窗口的纪录。对于文本处理,Gemini 1.5 Pro在处理高达530,000 token的文本时,能够实现100%的检索完整性,在处理1,000,000 token的文本时达到99.7%的检索完整性。甚至在处理高达10,000,000 token的文本时,检索准确性仍然高达99.2%。在音频处理方面,Gemini 1.5 Pro能够在大约11小时的音频资料中,100%成功检索到各种隐藏的音频片段。在视频处理方面,Gemini 1.5 Pro能够在大约3小时的视频内容中,100%成功检索到各种隐藏的视觉元素。图源:Gemini 1.5 Pro官方测试数据Gemini 1.5 Pro大大超过Gemini 1.0 Pro,在27项基准(共31项)上表现更好,特别是在数学、科学和推理(+28.9%),多语言(+22.3%),视频理解(+11.2%)和代码(+8.9%)等领域。即使是对比Gemini 系列的高端产品Gemini 1.0 Ultra, Gemini 1.5 Pro也在超过一半的基准(16/31)上表现更好,特别是在文本基准(10/13)和许多视觉基准(6/13)上。在 NIAH测试中,Gemini 1.5 Pro能够在长达100万token的文本块中,以99%的准确率找出隐藏有特定信息的文本片段。图源:Gemini 1.5 Pro官方测试数据这个上下文长度使Gemini 1.5 Pro可以自如地处理22小时的录音、超过十倍的完整的1440页的书(587,287字)“战争与和平”,以及四万多行代码、三小时的视频。三、机器脑有多好使除高效架构和强上下文处理能力之外,Gemini 1.5 Pro的优秀品质还在于“情境学习”技能,它可以根据长提示,从以前从未见过的信息中学习新技能,而不需要额外的微调。强学习能力、信息检索与数据分析能力使得在知识海洋中“海底捞针”由想象映照进了现实。根据官方发布的测试报告,当给定卡拉曼语(一种全球使用人数不足 200 人的语言)的语法手册时(500页的语言文献,一本词典和400个平行句子),Gemini 1.5 Pro模型可以学习将英语翻译成卡拉曼语,其水平与学习相同内容的人相似。图源:Gemini 1.5 Pro官方演示样本当被一个45分钟的Buster基顿电影“小神探夏洛克”(1924年)(2674帧,1FPS,684k token)提示时,Gemini 1.5 Pro可以从其中的特定帧中检索和提取文本信息,并提供相应的时间戳。此外还可以从一张手绘素描中识别电影中的一个场景。与侧重于衡量模型检索能力的特定事实或细节的任务不同,这些问题通常需要了解跨越大量文本的信息片段之间的关系。图源:Gemini 1.5 Pro官方演示样本Gemini 1.5 Pro在处理长达超过100,000行的代码时,还具备极强的问题解决能力。面对庞大的代码量,它能够深入分析各个示例,提出实用的修改建议,还能详细解释代码的条例框架。给出了整个746,152个令牌JAX代码库,Gemini 1.5 Pro可以识别核心自动微分方法的具体位置。开发者可以直接上传新的代码库,利用这个模型快速熟悉、理解代码结构。图源:Gemini 1.5 Pro官方演示样本正如NVIDIA高级科学家Jim Fan所言,Gemini 1.5 Pro意味着LLM能力的大幅跃升,这对于做个体户的小公司而言可谓一骑绝尘。在人机协同的探索过程中,单一的文本交互很难满足多场景多样态的内容生产诉求。多模态的信息处理与生成能力显然是技术变革的发力点。纽约大学计算机助理教授谢赛宁说,人才第一,数据第二,算力第三,其他都没有什么是不可替代的。Gemini 1.5 Pro是谷歌与巅峰对决的又一利器,或许AGI时代正加快到来。 ... PC版: 手机版:

相关推荐

封面图片

谷歌发布了Gemini 1.5模型,最主要的升级是支持了高达 100 万的上下文长度,秒杀了所有模型。

谷歌发布了Gemini 1.5模型,最主要的升级是支持了高达 100 万的上下文长度,秒杀了所有模型。 Gemini 1.5基于Transformer和MoE架构的研究和工程创新,提高了训练和服务的效率。 Gemini 1.5 Pro是一个中等规模的多模态模型,适用于多种任务,并引入了在长上下文理解方面的实验性特性。 它标准的上下文窗口为128,000个Token,但现在已经可以通过AI Studio和Vertex AI向开发者和企业客户提供高达100万个Token的私人预览。 1.5 Pro 可以一次处理大量信息包括 1 小时的视频、11 小时的音频、包含超过 30,000 行代码的代码库或超过 700,000 个单词。 Gemini 1.5 Pro在文本、代码、图像、音频和视频评估的综合面板上的性能超过了Gemini 1.0 Pro,并且与1.0 Ultra在同样的基准测试上表现相当。 此外,Gemini 1.5 Pro在进行长上下文窗口的测试中表现出色,在NIAH评估中,它在长达100万个Token的数据块中99%的时间内找到了嵌入的文本。 了解更多:#context-window

封面图片

Google的下一代人工智能模型Gemini 1.5已基本准备就绪

Google的下一代人工智能模型Gemini 1.5已基本准备就绪 Gemini 1.5 有很多改进:Gemini 1.5 Pro(Google系统中的通用模型)与该公司最近才推出的高端 Gemini Ultra 能力不相上下,而且在 87% 的基准测试中,它都优于 Gemini 1.0 Pro。它采用了一种越来越常见的技术,即"专家混合"(MoE),这意味着当你发送查询时,它只运行整个模型的一部分,而不是一直处理整个模型。这种方法能让用户更快地使用模型,也能让 Google 更高效地运行模型。但是,Gemini 1.5 中的一个新功能让整个公司都特别兴奋:Gemini 1.5 有一个巨大的上下文窗口,这意味着它可以处理更大的查询,一次查看更多的信息。这个窗口高达 100 万个tokens,而 OpenAI 的 GPT-4 为 12.8 万个,目前的 Gemini Pro 为 3.2 万个。"这大约相当于是 10 或 11 个小时的视频,数万行代码"。上下文窗口意味着可以一次性向人工智能机器人询问所有内容。Google CEO皮查伊还表示,研究人员正在测试一个 1000 tokens的上下文窗口这就好比是将《权力的游戏》的整个系列同时播出,或者把整个《指环王》三部曲都放进这个上下文窗口中。这允许在查询时添加大量个人上下文和信息,就像我们极大地扩展了查询窗口一样。目前,Gemini 1.5 只能通过Google的顶点人工智能(Vertex AI)和人工智能工作室(AI Studio)提供给企业用户和开发人员。最终,它将取代Gemini 1.0,而Gemini专业版的标准版本每个人都可以在gemini.google.com和公司的App中使用的版本将是 1.5 专业版,拥有128000 个tokens的上下文窗口,而需要支付额外的费用才能获得百万级的权限。Google还在测试该模式的安全性和道德底线,尤其是新增加的上下文窗口。当全球企业都在试图制定自己的人工智能战略以及是与 OpenAI、Google还是其他公司签署开发者协议时,Google正在为打造最好的人工智能工具而展开一场激烈的竞赛。就在本周,OpenAI 公布了ChatGPT的"记忆能力",同时似乎准备进军网络搜索领域。到目前为止,Gemini 似乎给人留下了深刻印象,尤其是对于那些已经进入Google生态系统的人来说,但各方都还有很多工作要做。最终,所有这些 1.0、1.5、Pro、Ultras 和企业之争对用户来说并不重要。人们将只需要感受AI,这就像使用智能手机,而不必总是关注手机里面的处理器是怎么工作的。 ... PC版: 手机版:

封面图片

ℹGoogle 发布新一代语言模型 Gemini 1.5 ,可支援 100 万 token 上下文理解能力#

ℹGoogle 发布新一代语言模型 Gemini 1.5 ,可支援 100 万 token 上下文理解能力# Google 推出 Gemini 1.0 后一直在测试、完善和增强 Gemini 的能力,也终于在 2 月 15 日宣布推出新一代的 Ge...

封面图片

Google宣布 Gemini Pro 登陆 Android Studio

Google宣布 Gemini Pro 登陆 Android Studio 今天,Google将这一体验升级为在更先进的Gemini 1.0 Pro 模型上运行,公司承诺将"显著提高响应质量"。在升级模型的同时,Studio Bot 也将更名为"Gemini in Android Studio"。近几个月来,Google已逐步将其人工智能产品统一到 Gemini 名称下,这与微软围绕"Copilot"所做的类似努力不谋而合。除了回答问题,如果你允许 Gemini 读取你的代码,它还能提供基于上下文的代码补全。如果你想要这些上下文建议,但又不想让 Gemini 访问某些文件或文件夹,你可以创建一个".aiexclude"文件来阻止访问。这样,你就可以完全控制 Gemini 在提供代码补全和其他人工智能功能时可以使用的上下文。要获得Android Studio 中 Gemini 的完整体验,您需要运行预览版,如最新的 Android Studio Jellyfish 测试版。Google尚未公布 Gemini in Android Studio 的最终定价,但180 多个受支持地区的开发人员在预览期间可以免费使用。同时,Gemini 还能帮助您创建自己的人工智能体验。在最新的 Android Studio Canary 版本(目前为 Koala)中可以找到新的"Gemini API Starter"项目模板,它为开始使用基于文本和图像的 Google AI 创建了一个简单的基础。要获得更完整的示例,还包括一个新的"Google Generative AI"代码示例。 ... PC版: 手机版:

封面图片

Gemini 数据分析能力并不像宣称的那么好

Gemini 数据分析能力并不像宣称的那么好 谷歌 AI 模型 Gemini 1.5 Pro 和 1.5 Flash 据称能够凭借其“长上下文”完成以前不可能完成的任务,例如总结数百页的文档或搜索电影镜头中的场景。但新的研究表明,这些模型实际上在这些方面并不是很擅长。两项独立研究调查了 Gemini 模型和其他模型如何很好地理解大量数据。两项研究都发现 Gemini 1.5 Pro 和 1.5 Flash 很难正确回答有关大型数据集的问题;在一系列基于文档测试中,这些模型给出正确答案的概率只有40%到50%。 马萨诸塞大学阿默斯特分校博士后、其中一项研究的合著者 Marzena Karpinska 说:“虽然像 Gemini 1.5 Pro 这样的模型在技术上可以处理长篇上下文,但我们已经看到许多案例表明,这些模型实际上并不‘理解’内容。”

封面图片

Google全新大模型突然发布:百万上下文 仅靠提示学会新语言

Google全新大模型突然发布:百万上下文 仅靠提示学会新语言 现在仅仅中杯1.5 Pro版就能越级打平上一代大杯1.0 Ultra版,更是在27项测试中超越平级的1.0 Pro。支持100万token上下文窗口,迄今为止大模型中最长,直接甩开对手一个量级。这还只是对外发布的版本,Google更是透露了内部研究版本已经能直冲1000万。现在Gemini能处理的内容,可换算成超过70万单词,或1小时视频、11小时音频、超过3万行代码。没错,这些数据模态Gemini 1.5都已经内建支持。从今天起,开发者和客户就可以在Vertex API或AI Studio申请试用。刚刚收到消息还在震惊中的网友们 be like:还有人直接@了OpenAI的奥特曼,这你们不跟进一波?上下文理解能力拉满目前Google已放出三个不同任务的演示视频,只能说Gemini 1.5是个抽象派(doge)。在第一段演示视频中,展示的是Gemini 1.5处理长视频的能力。使用的视频是巴斯特·基顿(Buster Keaton)的44分钟电影,共696161 token。演示中直接上传了电影,并给了模型这样的提示词:找到从人的口袋中取出一张纸的那一刻,并告诉我一些关于它的关键信息以及时间码。随后,模型立刻处理,输入框旁边带有一个“计时器”实时记录所耗时间:不到一分钟,模型做出了回应,指出12:01的时候有个人从兜里掏出了一张纸,内容是高盛典当经纪公司的一张当票,并且还给出了当票上的时间、成本等详细信息。随后经查证,确认模型给出的12:01这个时间点准确无误:除了纯文字prompt,还有更多玩法。直接给模型一张抽象“场景图”,询问“发生这种情况时的时间码是多少?”。同样不到一分钟,模型准确给出了的电影对应的时间点15:34。在第二段演示视频中,Google展示了Gemini 1.5分析和理解复杂代码库的能力。用到的是Three.js,这是一个3D Javascript库,包含约100000行代码、示例、文档等。演示中他们将所有内容放到了一个txt文件中,共816767 token,输入给模型并要求它“找到三个示例来学习角色动画”。结果模型查看了数百个示例后筛选出了三个关于混合骨骼动画、姿势、面部动画的示例。这只是开胃小菜。接下来只用文字询问模型“动画Little Tokyo的demo是由什么控制?”模型不仅找到了这个demo,并且解释了动画嵌入在gLTF模型中。并且还能实现“定制代码”。让模型“给一些代码,添加一个滑块来控制动画的速度。使用其它演示所具有的那种GUI”。Gemini 1.5分分钟给出了可以成功运行的代码,动画右上角出现了一个可控速的滑块:当然也可以做“代码定位”。仅靠一张demo的图片,Gemini 1.5就能在代码库中从数百个demo中,找到该图对应动画的代码:还能修改代码,让地形变得平坦,并解释其中的工作原理:修改代码这一块,对文本几何体的修改也不在话下:第三个演示视频展示的是Gemini 1.5的文档处理能力。选用的是阿波罗11号登月任务的402页PDF记录,共326658 token。要求Gemini 1.5“找到三个搞笑时刻,并列出文字记录以及表情符号引述”:30秒,模型给出了回应,其一是迈克尔·柯林斯的这句话“我敢打赌你一定要喝一杯咖啡”,经查询文档中的确有记录:更抽象一点,绘制一个靴子的图片,询问模型“这是什么时刻”。模型正确地将其识别为这是Neil在月球上的第一步:最后同样可以询问模型快速定位这一时刻在文档中对应的时间位置:差不多的抽象风同样适用于1382页、732000 token的《悲惨世界》,一张图定位小说位置。仅从提示词中学会一门新语言对于Gemini 1.5的技术细节,Google遵循了OpenAI开的好头,只发布技术报告而非论文。其中透露Gemini 1.5使用了MoE架构,但没有更多细节。与上代1.0 Pro相比,1.5 Pro在数学、科学、推理、多语言、视频理解上进步最大,并达到1.0 Ultra层次。为验证长上下文窗口的性能,使用了开源社区通行的大海捞针测试,也就是在长文本中准确找到可以藏起来的一处关键事实。结果50万token之前的表现非常完美,一直到千万token,Gemini 1.5也只失误了5次。此外还将测试扩展到多模态版本,如在视频画面的某一帧中藏一句话,给的例子是在阿尔法狗的纪录片中藏了“The secret word is ‘needle’”字样。结果在视频、音频测试中都实现了100%的召回率。特别是音频中,对比GPT-4+Whisper的结果,差距非常明显。此外GoogleDeepMind团队还测试了一项高难任务,仅通过长提示词让模型学会全新的技能。输入一整本语法书,Gemini 1.5 Pro就能在翻译全球不到200人使用的Kalamang上达到人类水平。相比之下,GPT-4 Turbo和Claude 2.1一次只能看完半本书,想获得这个技能就必须要微调或者使用外部工具了。也难怪有网友看过后惊呼,“哥们这是要把RAG玩死啊”。One More ThingGoogle还公布了一波已在业务中采用Gemini大模型的客户。其中有三星手机这样的大厂,也有像Jasper这种靠GPT起家的创业公司,甚至OpenAI董事Adam D‘Angelo旗下的Quora。与OpenAI形成了直接竞争关系。对此,一位网友道出了大家的心声:真希望这能促使OpenAI发布他们的下一代大模型。参考链接:[1]... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人