今天必将是 Google 刷屏的一天，我就说下重点吧：

今天必将是 Google 刷屏的一天，我就说下重点吧： .PALM相比PALM，模型参数更少，但是效果反而远超前代。实力科学炼丹。 .在代码能力上和GPT差距仍然巨大， /的差距 .Flan版本的数学能力超过GPT一点点 .除了代码和数学，还特别提升了推理能力技术报告地址： https://ai.google/static/documents/palmtechreport.pdf

在Telegram中查看

相关推荐

今天必将是 Google 刷屏的一天，我就说下重点吧：

今天必将是 Google 刷屏的一天，我就说下重点吧： 1.PALM2相比PALM，模型参数更少，但是效果反而远超前代。实力科学炼丹。 2.在代码能力上和GPT4差距仍然巨大， 37/85的差距 3.Flan版本的数学能力超过GPT4一点点 4.除了代码和数学，还特别提升了推理能力技术报告地址：

谷歌在 Google I/O 2023 上全面升级AI技术

谷歌在 Google I/O 2023 上全面升级AI技术 PaLM 2 模型发布，相较前代 PaLM 参数更少但能力远超。支持100多种自然语言和20多种编程语言，为超过25种新产品和功能提供支持。有着 Gecko 壁虎 (可移动端本地运行)、Otter 水獭、Bison 野牛、Unicorn 独角兽四种参数规格。 Bard 现由 PaLM 2 驱动，已取消候补名单在180多个地区上线。升级后的 Bard 支持20多种编程语言，自然语言新增支持日语与韩语，很快将扩大支持40种语言包括中文。Bard 现在结合了 Google Lens 的识图能力与 Adobe Firefly 的图片生成能力，未来将有更多第三方工具接入。还更新了图文并茂回复、来源引用、代码/文本导出、深色模式等功能。 Duet AI 进入谷歌办公套件，包括在 Gmail 起草邮件、 Docs 文档编写、Sheets 表格处理、Slides 幻灯片生成、Meet 会议摘要等等。 Google Brain 和 DeepMind 今年开始合作研发的下一代模型 Gemini 双子座正在训练中，目前已经展现出了以往模型中从未出现过的多模态能力。据 The Information 消息 Gemini 将具有像 GPT-4 一样的万亿参数。

上手了刷屏一天的GPT-4o 我感觉目前也就那样

上手了刷屏一天的GPT-4o 我感觉目前也就那样他们也没多讲几句废话，整场发布会就二十来分钟，其中，最重磅的无异于GPT-4o 新模型的发布。关于 GPT-4o 起名的缘由， OpenAI 官方是这么解释的：“ o “的全称是“ omni ”，也就是“全能”的意思。之所以说它全能，是因为它能把文本、视觉、音频全打通了。换句话说，你跟 GPT-4o 对话就跟真人似的。最重要的是， GPT-4o 是免费向用户开放的，不开 Plus 会员也能用，只不过 Plus 会员要多一些使用次数。反正跟世超一起蹲守直播的同事们看了，都直呼想要……就连奥特曼也在Twitter上毫不避讳地，把 GPT-4o 跟科幻电影《 Her 》联系起来。（这部电影讲的是人和 AI 语音助理谈恋爱的故事）评论区的网友们也纷纷表示“见证历史” “电影终于要照进现实了”，甚至还用奥特曼的照片，整出来了个“ him ”。玩笑归玩笑，但世超觉得， OpenAI 这次 GPT-4o 的现场演示效果，特别是实时语音和视频交互的能力，确实甩了其他现役大模型好几个车尾灯。不过光这么说，大伙儿对 GPT-4o 的感受可能也不深，咱直接来看演示。像演示人员让 GPT-4o 从一数到十，中途就嫌它语速太慢了，让它说快点儿， GPT-4o 能立马反应过来，后续随时插话它都能瞬间 get 到。就这一个接一个的连续对话实力，说实话世超还没在 AI 身上体验过。给 GPT-4o 一个麦克风和摄像头权限，它能分分钟化身成面试指导官，比方视频里的这个老哥，说自己要去 OpenAI 面试，让 GPT-4o 给点着装建议。它迅速“打量”了下这位老哥，礼貌不失幽默地给出了“抓个头发”的中肯建议。但老哥打算走个不听劝的人设，顺手拿出个帽子，问能不能戴它去面试。GPT-4o 这边反应贼快，识破了老哥明知故问地恶作剧，顺着他的话茬说，也不是不行，最起码能让你在人群中脱颖而出。如果不给世超看演示画面，光听声音我可能会以为，这就是两个朋友之间在开玩笑。当然，以 GPT-4o 的知识储备和多模态能力，它也有相当正儿八经的应用场景。一扭头，就能直接化身成视障人士的眼睛，帮他们识别所在的位置，要是想知道眼前都有啥场景， GPT-4o 也能够绘声绘色地描绘出来，甚至还能一步一步指导视障人士打车。再摇身一变， GPT-4o 还能化身成数学老师，把屏幕的权限开放给它，它能一步步指导你做题，你在题目上写了啥画了啥 GPT-4o 也都能看得一清二楚。有一说一，这跟世超上中学时爸妈请的家教没啥两样……看完官方的案例视频，相信大伙儿跟世超一样，已经被震撼得没边儿了。而为了做到这些， OpenAI 在底层的模型上可是下了不少苦功。之前咱们用 ChatGPT 的语音对话，都是一轮一轮的来。它得先把咱说的话转换成文字输给 GPT-4 ，等 GPT-4 生成文字答案之后，才能再转成语音输出。也就是说，以前和 ChatGPT 语音对个话，它得动用三个模型，一个管音频转文本，一个 GPT-4 管文本转文本，另外还有一个管文本转音频。一整套流程下来，耐心都快给磨没了，而且中间除非咱们手动暂停，否则根本没插话的机会。但 GPT-4o 不一样，它是一个原生的多模态模型，无论文字音频，还是视频啥的，所有的输入和输出都在同一个神经网络里处理。这种打娘胎里自带多模态的特性，让 GPT-4o 能够听懂好赖话，表达自己的情绪，和它对话也能像吃了德芙一样丝滑。不过，上面那些视频终归还是“PPT”，没到手实测一波，世超也不敢轻易下定论这玩意儿是不是真的有这么强。毕竟前段时间， Sora 生成的《气球人》短片才被传出加了大量的人类后期。而在实际用这块， OpenAI 还是一如既往的狗，嘴上说 GPT-4o 都能免费用，但也要分先来后到，而且功能也慢慢开放。现在能用上 GPT-4o 的只有 Plus 账号，而且最重磅的实时视频和语音功能，毛都看不着。但有总归比没有强，世超手边恰好也有个 Plus 账号，而且官方也说了，GPT-4o 生成的速度还会比 GPT-4 快上两倍。所以咱这波，就先提前给差友们试试 GPT-4o 的实力。先让它给咱讲一个童话故事，顺便再画出整个故事的分镜图。GPT-4o 没犹豫几秒，库吃库吃就开始写了。写完中间也没带停顿，直接开始画分镜了。而同样的问题再抛给 GPT-4 ，它一开始就得磨蹭半天在问题上……讲清楚要求后才肯继续写，而且写完之后也不继续画分镜图，还得等世超我再亲自强调一波。不过虽然 GPT-4 比 GPT-4o 墨迹了不少，但从内容来看，我还是会觉得GPT-4 会更丰富一点。再借我司老员工火锅的照片一用，分别让 GPT-4 和 GPT-4o 生成一张像素风的图片。在生成速度上 GPT-4o 完胜，但要抠细节的话两个就半斤八两了。GPT-4 识别出了火锅嘴里叼着的是袋子， GPT-4o 多识别出了一只拖鞋，非要比的话，其实 GPT-4 的金毛更像火锅一些……（左边GPT-4，右边GPT-4o）接着，我又让 GPT-4o 把咱差评的 LOGO 换成 3D 图片，结果它整出来字，翻遍整本新华字典，估计都找不到。但不识汉字也是历代 ChatGPT 的老毛病了，换成英文再要求它，你别说，这次出来的整体效果还可以，就是经不起细看，不少英文拼写都是错的。。整个上手试下来， GPT-4o 给我最大的印象就是快，非常快。但说实话，除了快，世超真没觉得有啥特别的了，与其说 GPT-4o 是 GPT-4 的智商进化版，倒不如说是把 GPT-4 的交互能力单拎出来强化了一波。就像奥特曼在博客里提到的，“达到人类响应时间和表达水平”是 AI 的巨大变化。大模型的终极形态，也应该是让人和 AI 的交流回归到最原始、最简单的形态。在未来，咱们面对一台电脑、一部手机，直接说话交流，就是最主要的交互方式。不过这次 GPT-4o 最厉害的杀手锏：视频交流功能，还没放出来，等到时候咱能体验到了再下结论也不迟。另外，网友们也没干坐着，也在各种研究 GPT-4o 的，结果，却扒出了一些番外的料……也不知道 GPT-4o 的中文语料库是哪儿来的，里面有不少的钓鱼网站的违禁词，像什么“日本 x 片免费视频”这类的。给人老外都整无语了。。像这样的乐子，以后指不定还要冒出来不少。但言归正传， GPT-4o 的出现确实又给 AI 开了个新副本。按照之前 ChatGPT 问世之后，其他友商步步紧逼的尿性。世超盲猜，在 GPT-4o 之后，类似的“Claude-o”“Gemini-o”应该很快就会出现。刚好明天就是Google的 I/O 了，咱们也浅浅期待一手好吧。 ... PC版：手机版：

Google全新大模型突然发布：百万上下文仅靠提示学会新语言

Google全新大模型突然发布：百万上下文仅靠提示学会新语言现在仅仅中杯1.5 Pro版就能越级打平上一代大杯1.0 Ultra版，更是在27项测试中超越平级的1.0 Pro。支持100万token上下文窗口，迄今为止大模型中最长，直接甩开对手一个量级。这还只是对外发布的版本，Google更是透露了内部研究版本已经能直冲1000万。现在Gemini能处理的内容，可换算成超过70万单词，或1小时视频、11小时音频、超过3万行代码。没错，这些数据模态Gemini 1.5都已经内建支持。从今天起，开发者和客户就可以在Vertex API或AI Studio申请试用。刚刚收到消息还在震惊中的网友们 be like：还有人直接@了OpenAI的奥特曼，这你们不跟进一波？上下文理解能力拉满目前Google已放出三个不同任务的演示视频，只能说Gemini 1.5是个抽象派（doge）。在第一段演示视频中，展示的是Gemini 1.5处理长视频的能力。使用的视频是巴斯特·基顿（Buster Keaton）的44分钟电影，共696161 token。演示中直接上传了电影，并给了模型这样的提示词：找到从人的口袋中取出一张纸的那一刻，并告诉我一些关于它的关键信息以及时间码。随后，模型立刻处理，输入框旁边带有一个“计时器”实时记录所耗时间：不到一分钟，模型做出了回应，指出12:01的时候有个人从兜里掏出了一张纸，内容是高盛典当经纪公司的一张当票，并且还给出了当票上的时间、成本等详细信息。随后经查证，确认模型给出的12:01这个时间点准确无误：除了纯文字prompt，还有更多玩法。直接给模型一张抽象“场景图”，询问“发生这种情况时的时间码是多少？”。同样不到一分钟，模型准确给出了的电影对应的时间点15:34。在第二段演示视频中，Google展示了Gemini 1.5分析和理解复杂代码库的能力。用到的是Three.js，这是一个3D Javascript库，包含约100000行代码、示例、文档等。演示中他们将所有内容放到了一个txt文件中，共816767 token，输入给模型并要求它“找到三个示例来学习角色动画”。结果模型查看了数百个示例后筛选出了三个关于混合骨骼动画、姿势、面部动画的示例。这只是开胃小菜。接下来只用文字询问模型“动画Little Tokyo的demo是由什么控制？”模型不仅找到了这个demo，并且解释了动画嵌入在gLTF模型中。并且还能实现“定制代码”。让模型“给一些代码，添加一个滑块来控制动画的速度。使用其它演示所具有的那种GUI”。Gemini 1.5分分钟给出了可以成功运行的代码，动画右上角出现了一个可控速的滑块：当然也可以做“代码定位”。仅靠一张demo的图片，Gemini 1.5就能在代码库中从数百个demo中，找到该图对应动画的代码：还能修改代码，让地形变得平坦，并解释其中的工作原理：修改代码这一块，对文本几何体的修改也不在话下：第三个演示视频展示的是Gemini 1.5的文档处理能力。选用的是阿波罗11号登月任务的402页PDF记录，共326658 token。要求Gemini 1.5“找到三个搞笑时刻，并列出文字记录以及表情符号引述”：30秒，模型给出了回应，其一是迈克尔·柯林斯的这句话“我敢打赌你一定要喝一杯咖啡”，经查询文档中的确有记录：更抽象一点，绘制一个靴子的图片，询问模型“这是什么时刻”。模型正确地将其识别为这是Neil在月球上的第一步：最后同样可以询问模型快速定位这一时刻在文档中对应的时间位置：差不多的抽象风同样适用于1382页、732000 token的《悲惨世界》，一张图定位小说位置。仅从提示词中学会一门新语言对于Gemini 1.5的技术细节，Google遵循了OpenAI开的好头，只发布技术报告而非论文。其中透露Gemini 1.5使用了MoE架构，但没有更多细节。与上代1.0 Pro相比，1.5 Pro在数学、科学、推理、多语言、视频理解上进步最大，并达到1.0 Ultra层次。为验证长上下文窗口的性能，使用了开源社区通行的大海捞针测试，也就是在长文本中准确找到可以藏起来的一处关键事实。结果50万token之前的表现非常完美，一直到千万token，Gemini 1.5也只失误了5次。此外还将测试扩展到多模态版本，如在视频画面的某一帧中藏一句话，给的例子是在阿尔法狗的纪录片中藏了“The secret word is ‘needle’”字样。结果在视频、音频测试中都实现了100%的召回率。特别是音频中，对比GPT-4+Whisper的结果，差距非常明显。此外GoogleDeepMind团队还测试了一项高难任务，仅通过长提示词让模型学会全新的技能。输入一整本语法书，Gemini 1.5 Pro就能在翻译全球不到200人使用的Kalamang上达到人类水平。相比之下，GPT-4 Turbo和Claude 2.1一次只能看完半本书，想获得这个技能就必须要微调或者使用外部工具了。也难怪有网友看过后惊呼，“哥们这是要把RAG玩死啊”。One More ThingGoogle还公布了一波已在业务中采用Gemini大模型的客户。其中有三星手机这样的大厂，也有像Jasper这种靠GPT起家的创业公司，甚至OpenAI董事Adam D‘Angelo旗下的Quora。与OpenAI形成了直接竞争关系。对此，一位网友道出了大家的心声：真希望这能促使OpenAI发布他们的下一代大模型。参考链接：[1]... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人

相关推荐

今天必将是 Google 刷屏的一天，我就说下重点吧：

谷歌在 Google I/O 2023 上全面升级AI技术

上手了刷屏一天的GPT-4o 我感觉目前也就那样

Google全新大模型突然发布：百万上下文 仅靠提示学会新语言

Google全新大模型突然发布：百万上下文仅靠提示学会新语言