今天必将是 Google 刷屏的一天,我就说下重点吧:

今天必将是 Google 刷屏的一天,我就说下重点吧: 1.PALM2相比PALM,模型参数更少,但是效果反而远超前代。实力科学炼丹。 2.在代码能力上和GPT4差距仍然巨大, 37/85的差距 3.Flan版本的数学能力超过GPT4一点点 4.除了代码和数学,还特别提升了推理能力 技术报告地址:

相关推荐

封面图片

今天必将是 Google 刷屏的一天,我就说下重点吧:

今天必将是 Google 刷屏的一天,我就说下重点吧: .PALM相比PALM,模型参数更少,但是效果反而远超前代。实力科学炼丹。 .在代码能力上和GPT差距仍然巨大, /的差距 .Flan版本的数学能力超过GPT一点点 .除了代码和数学,还特别提升了推理能力 技术报告地址: https://ai.google/static/documents/palmtechreport.pdf

封面图片

谷歌在 Google I/O 2023 上全面升级AI技术

谷歌在 Google I/O 2023 上全面升级AI技术 PaLM 2 模型发布,相较前代 PaLM 参数更少但能力远超。支持100多种自然语言和20多种编程语言,为超过25种新产品和功能提供支持。有着 Gecko 壁虎 (可移动端本地运行)、Otter 水獭、Bison 野牛、Unicorn 独角兽 四种参数规格。 Bard 现由 PaLM 2 驱动,已取消候补名单在180多个地区上线。升级后的 Bard 支持20多种编程语言,自然语言新增支持日语与韩语,很快将扩大支持40种语言包括中文。Bard 现在结合了 Google Lens 的识图能力与 Adobe Firefly 的图片生成能力,未来将有更多第三方工具接入。还更新了图文并茂回复、来源引用、代码/文本导出、深色模式等功能。 Duet AI 进入谷歌办公套件,包括在 Gmail 起草邮件、 Docs 文档编写、Sheets 表格处理、Slides 幻灯片生成、Meet 会议摘要等等。 Google Brain 和 DeepMind 今年开始合作研发的下一代模型 Gemini 双子座 正在训练中,目前已经展现出了以往模型中从未出现过的多模态能力。据 The Information 消息 Gemini 将具有像 GPT-4 一样的万亿参数。

封面图片

上手了刷屏一天的GPT-4o 我感觉目前也就那样

上手了刷屏一天的GPT-4o 我感觉目前也就那样 他们也没多讲几句废话,整场发布会就二十来分钟,其中,最重磅的无异于GPT-4o 新模型的发布。关于 GPT-4o 起名的缘由, OpenAI 官方是这么解释的:“ o “的全称是“ omni ”,也就是“全能”的意思。之所以说它全能,是因为它能把文本、视觉、音频全打通了。换句话说,你跟 GPT-4o 对话就跟真人似的。最重要的是, GPT-4o 是免费向用户开放的,不开 Plus 会员也能用,只不过 Plus 会员要多一些使用次数。反正跟世超一起蹲守直播的同事们看了,都直呼想要……就连奥特曼也在Twitter上毫不避讳地,把 GPT-4o 跟科幻电影《 Her 》联系起来。(这部电影讲的是人和 AI 语音助理谈恋爱的故事)评论区的网友们也纷纷表示“见证历史” “电影终于要照进现实了”,甚至还用奥特曼的照片,整出来了个“ him ”。玩笑归玩笑,但世超觉得, OpenAI 这次 GPT-4o 的现场演示效果,特别是实时语音和视频交互的能力,确实甩了其他现役大模型好几个车尾灯。不过光这么说,大伙儿对 GPT-4o 的感受可能也不深,咱直接来看演示。像演示人员让 GPT-4o 从一数到十,中途就嫌它语速太慢了,让它说快点儿, GPT-4o 能立马反应过来,后续随时插话它都能瞬间 get 到。就这一个接一个的连续对话实力,说实话世超还没在 AI 身上体验过。给 GPT-4o 一个麦克风和摄像头权限,它能分分钟化身成面试指导官,比方视频里的这个老哥,说自己要去 OpenAI 面试,让 GPT-4o 给点着装建议。它迅速“打量”了下这位老哥,礼貌不失幽默地给出了“抓个头发”的中肯建议。但老哥打算走个不听劝的人设,顺手拿出个帽子,问能不能戴它去面试。GPT-4o 这边反应贼快,识破了老哥明知故问地恶作剧,顺着他的话茬说,也不是不行,最起码能让你在人群中脱颖而出。如果不给世超看演示画面,光听声音我可能会以为,这就是两个朋友之间在开玩笑。当然,以 GPT-4o 的知识储备和多模态能力,它也有相当正儿八经的应用场景。一扭头,就能直接化身成视障人士的眼睛,帮他们识别所在的位置,要是想知道眼前都有啥场景, GPT-4o 也能够绘声绘色地描绘出来,甚至还能一步一步指导视障人士打车。再摇身一变, GPT-4o 还能化身成数学老师,把屏幕的权限开放给它,它能一步步指导你做题,你在题目上写了啥画了啥 GPT-4o 也都能看得一清二楚。有一说一,这跟世超上中学时爸妈请的家教没啥两样……看完官方的案例视频,相信大伙儿跟世超一样,已经被震撼得没边儿了。而为了做到这些, OpenAI 在底层的模型上可是下了不少苦功。之前咱们用 ChatGPT 的语音对话,都是一轮一轮的来。它得先把咱说的话转换成文字输给 GPT-4 ,等 GPT-4 生成文字答案之后,才能再转成语音输出。也就是说,以前和 ChatGPT 语音对个话,它得动用三个模型,一个管音频转文本,一个 GPT-4 管文本转文本,另外还有一个管文本转音频。一整套流程下来,耐心都快给磨没了,而且中间除非咱们手动暂停,否则根本没插话的机会。但 GPT-4o 不一样,它是一个原生的多模态模型,无论文字音频,还是视频啥的,所有的输入和输出都在同一个神经网络里处理。这种打娘胎里自带多模态的特性,让 GPT-4o 能够听懂好赖话,表达自己的情绪,和它对话也能像吃了德芙一样丝滑。不过,上面那些视频终归还是“PPT”,没到手实测一波,世超也不敢轻易下定论这玩意儿是不是真的有这么强。毕竟前段时间, Sora 生成的《气球人》短片才被传出加了大量的人类后期。而在实际用这块, OpenAI 还是一如既往的狗,嘴上说 GPT-4o 都能免费用,但也要分先来后到,而且功能也慢慢开放。现在能用上 GPT-4o 的只有 Plus 账号,而且最重磅的实时视频和语音功能,毛都看不着。但有总归比没有强,世超手边恰好也有个 Plus 账号,而且官方也说了,GPT-4o 生成的速度还会比 GPT-4 快上两倍。所以咱这波,就先提前给差友们试试 GPT-4o 的实力。先让它给咱讲一个童话故事,顺便再画出整个故事的分镜图。GPT-4o 没犹豫几秒,库吃库吃就开始写了。写完中间也没带停顿,直接开始画分镜了。而同样的问题再抛给 GPT-4 ,它一开始就得磨蹭半天在问题上……讲清楚要求后才肯继续写,而且写完之后也不继续画分镜图,还得等世超我再亲自强调一波。不过虽然 GPT-4 比 GPT-4o 墨迹了不少,但从内容来看,我还是会觉得GPT-4 会更丰富一点。再借我司老员工火锅的照片一用,分别让 GPT-4 和 GPT-4o 生成一张像素风的图片。在生成速度上 GPT-4o 完胜,但要抠细节的话两个就半斤八两了。GPT-4 识别出了火锅嘴里叼着的是袋子, GPT-4o 多识别出了一只拖鞋,非要比的话,其实 GPT-4 的金毛更像火锅一些……(左边GPT-4,右边GPT-4o)接着,我又让 GPT-4o 把咱差评的 LOGO 换成 3D 图片,结果它整出来字,翻遍整本新华字典,估计都找不到。但不识汉字也是历代 ChatGPT 的老毛病了,换成英文再要求它,你别说,这次出来的整体效果还可以,就是经不起细看,不少英文拼写都是错的。。整个上手试下来, GPT-4o 给我最大的印象就是快,非常快。但说实话,除了快,世超真没觉得有啥特别的了,与其说 GPT-4o 是 GPT-4 的智商进化版,倒不如说是把 GPT-4 的交互能力单拎出来强化了一波。就像奥特曼在博客里提到的,“达到人类响应时间和表达水平”是 AI 的巨大变化。大模型的终极形态,也应该是让人和 AI 的交流回归到最原始、最简单的形态。在未来,咱们面对一台电脑、一部手机,直接说话交流,就是最主要的交互方式。不过这次 GPT-4o 最厉害的杀手锏:视频交流功能,还没放出来,等到时候咱能体验到了再下结论也不迟。另外,网友们也没干坐着,也在各种研究 GPT-4o 的,结果,却扒出了一些番外的料……也不知道 GPT-4o 的中文语料库是哪儿来的,里面有不少的钓鱼网站的违禁词,像什么“日本 x 片免费视频”这类的。给人老外都整无语了。。像这样的乐子,以后指不定还要冒出来不少。但言归正传, GPT-4o 的出现确实又给 AI 开了个新副本。按照之前 ChatGPT 问世之后,其他友商步步紧逼的尿性。世超盲猜,在 GPT-4o 之后,类似的“Claude-o”“Gemini-o”应该很快就会出现。刚好明天就是Google的 I/O 了,咱们也浅浅期待一手好吧。 ... PC版: 手机版:

封面图片

今天和Claude Opus一起工作了一天,提效非常明显:

今天和Claude Opus一起工作了一天,提效非常明显: 1. 数据分析场景:把需要查询的几张表的表结构和select * from xxx limit 10的结果发给Claude,说一下几张表的关联关系,然后说我想要查询xxx,让Claude直接给我写sql,然后无脑粘贴进bi平台查询,基本上嵌套关系在三层以内的sql都不会出错。另外把数据分析的结果发给Claude,让它给我补充分析背景和分析结论,非常好用,我只需再补充一些后续产品todo即可。不方便的地方是没有code interpreter所以不能像在ChatGPT里那样直接帮我把图表也给画了。 2. PRD场景:直接把实习生写的PRD复制粘贴发给Claude,让它挑刺,给出来的建议非常的客观具体详实,是一个比我好很多的产品mentor。 补充: Claude模型能力和GPT4比哪个更强不好评价,但long context无损压缩的用户体验好太多了。自从OpenAI devday搞了Assistant api之后,在chatgpt上第n轮交互不一定会把前几轮的Query和answer放到上下文。这就造成,我如果把所有背景在一轮交互里都讲清楚了,gpt4很完美,但如果问followup questions它就表现的很垃圾。我坚信目前这些在工程上carefully arrange context window来节约成本的都是雕花行为,long context才是新时代的摩尔定律。

封面图片

Google全新大模型突然发布:百万上下文 仅靠提示学会新语言

Google全新大模型突然发布:百万上下文 仅靠提示学会新语言 现在仅仅中杯1.5 Pro版就能越级打平上一代大杯1.0 Ultra版,更是在27项测试中超越平级的1.0 Pro。支持100万token上下文窗口,迄今为止大模型中最长,直接甩开对手一个量级。这还只是对外发布的版本,Google更是透露了内部研究版本已经能直冲1000万。现在Gemini能处理的内容,可换算成超过70万单词,或1小时视频、11小时音频、超过3万行代码。没错,这些数据模态Gemini 1.5都已经内建支持。从今天起,开发者和客户就可以在Vertex API或AI Studio申请试用。刚刚收到消息还在震惊中的网友们 be like:还有人直接@了OpenAI的奥特曼,这你们不跟进一波?上下文理解能力拉满目前Google已放出三个不同任务的演示视频,只能说Gemini 1.5是个抽象派(doge)。在第一段演示视频中,展示的是Gemini 1.5处理长视频的能力。使用的视频是巴斯特·基顿(Buster Keaton)的44分钟电影,共696161 token。演示中直接上传了电影,并给了模型这样的提示词:找到从人的口袋中取出一张纸的那一刻,并告诉我一些关于它的关键信息以及时间码。随后,模型立刻处理,输入框旁边带有一个“计时器”实时记录所耗时间:不到一分钟,模型做出了回应,指出12:01的时候有个人从兜里掏出了一张纸,内容是高盛典当经纪公司的一张当票,并且还给出了当票上的时间、成本等详细信息。随后经查证,确认模型给出的12:01这个时间点准确无误:除了纯文字prompt,还有更多玩法。直接给模型一张抽象“场景图”,询问“发生这种情况时的时间码是多少?”。同样不到一分钟,模型准确给出了的电影对应的时间点15:34。在第二段演示视频中,Google展示了Gemini 1.5分析和理解复杂代码库的能力。用到的是Three.js,这是一个3D Javascript库,包含约100000行代码、示例、文档等。演示中他们将所有内容放到了一个txt文件中,共816767 token,输入给模型并要求它“找到三个示例来学习角色动画”。结果模型查看了数百个示例后筛选出了三个关于混合骨骼动画、姿势、面部动画的示例。这只是开胃小菜。接下来只用文字询问模型“动画Little Tokyo的demo是由什么控制?”模型不仅找到了这个demo,并且解释了动画嵌入在gLTF模型中。并且还能实现“定制代码”。让模型“给一些代码,添加一个滑块来控制动画的速度。使用其它演示所具有的那种GUI”。Gemini 1.5分分钟给出了可以成功运行的代码,动画右上角出现了一个可控速的滑块:当然也可以做“代码定位”。仅靠一张demo的图片,Gemini 1.5就能在代码库中从数百个demo中,找到该图对应动画的代码:还能修改代码,让地形变得平坦,并解释其中的工作原理:修改代码这一块,对文本几何体的修改也不在话下:第三个演示视频展示的是Gemini 1.5的文档处理能力。选用的是阿波罗11号登月任务的402页PDF记录,共326658 token。要求Gemini 1.5“找到三个搞笑时刻,并列出文字记录以及表情符号引述”:30秒,模型给出了回应,其一是迈克尔·柯林斯的这句话“我敢打赌你一定要喝一杯咖啡”,经查询文档中的确有记录:更抽象一点,绘制一个靴子的图片,询问模型“这是什么时刻”。模型正确地将其识别为这是Neil在月球上的第一步:最后同样可以询问模型快速定位这一时刻在文档中对应的时间位置:差不多的抽象风同样适用于1382页、732000 token的《悲惨世界》,一张图定位小说位置。仅从提示词中学会一门新语言对于Gemini 1.5的技术细节,Google遵循了OpenAI开的好头,只发布技术报告而非论文。其中透露Gemini 1.5使用了MoE架构,但没有更多细节。与上代1.0 Pro相比,1.5 Pro在数学、科学、推理、多语言、视频理解上进步最大,并达到1.0 Ultra层次。为验证长上下文窗口的性能,使用了开源社区通行的大海捞针测试,也就是在长文本中准确找到可以藏起来的一处关键事实。结果50万token之前的表现非常完美,一直到千万token,Gemini 1.5也只失误了5次。此外还将测试扩展到多模态版本,如在视频画面的某一帧中藏一句话,给的例子是在阿尔法狗的纪录片中藏了“The secret word is ‘needle’”字样。结果在视频、音频测试中都实现了100%的召回率。特别是音频中,对比GPT-4+Whisper的结果,差距非常明显。此外GoogleDeepMind团队还测试了一项高难任务,仅通过长提示词让模型学会全新的技能。输入一整本语法书,Gemini 1.5 Pro就能在翻译全球不到200人使用的Kalamang上达到人类水平。相比之下,GPT-4 Turbo和Claude 2.1一次只能看完半本书,想获得这个技能就必须要微调或者使用外部工具了。也难怪有网友看过后惊呼,“哥们这是要把RAG玩死啊”。One More ThingGoogle还公布了一波已在业务中采用Gemini大模型的客户。其中有三星手机这样的大厂,也有像Jasper这种靠GPT起家的创业公司,甚至OpenAI董事Adam D‘Angelo旗下的Quora。与OpenAI形成了直接竞争关系。对此,一位网友道出了大家的心声:真希望这能促使OpenAI发布他们的下一代大模型。参考链接:[1]... PC版: 手机版:

封面图片

一年狂揽73亿美元投资 Anthropic点燃硅谷大模型“战火”

一年狂揽73亿美元投资 Anthropic点燃硅谷大模型“战火” Anthropic发布的跑分显示,Opus在多项基准测试中得分都超过了GPT-4 和Gemini 1.0 Ultra,拥有接近人类本科生水平的知识,“在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准”。自去年3月GPT-4发布后,其一直是行业的最高标准以及追赶目标,此次Claude 3的出现,意味着其Top 1地位可能不保,不少人发出“GPT-4时代已过”的感叹。不过,天使投资人、资深人工智能专家郭涛对第一财经表示,这可能是一种过于过激的说法,GPT-4在许多应用中可能会比 Claude 3 更适合。开源大模型生态社区OpenCSG的创始人陈冉也并不认可“时代已过”,他表示,这是一个层级和另外一个层级比,毕竟GPT-4已经出来很长一段时间了。Claude 3之后,大家自然地将目光投向了OpenAI,GPT-5或许已经不远,这是“暴风雨前的宁静”。全面超越GPT-4?据Anthropic官方发布的跑分结果,Claude 3 Opus在本科级别专业知识(MMLU)、研究生级别专家推理(GPQA)、基础数学(GSM8K)等领域都超过了GPT-4在内的领先模型。事实真的如此吗?在Claude 3发布后,陈冉进行了试用和测评,在用他自己的一套方法测试了Opus的逻辑推理、代码等能力后,他认为,Claude 3的整体性能相比GPT-4平均提升了50%以上,包括“幻觉”、正确率和非正确率方面的表现等。从大模型胡乱回答问题的“幻觉”这一项来看,Claude3相比GPT-4要好很多,另外,在 GPT-4中,有些问题不会被回答,但在Claude 3中其回答的正确率提高了。在代码能力和推理上,陈冉测试了贪吃蛇游戏、扑克游戏等,他对第一财经表示,在这些方面GPT-4都失败了,但Claude 3 Opus做到了。在陈冉看来,此次Anthropic的发布策略很好,一次性推出三个不同性能的大模型,最出色的大模型打分都比GPT-4高,较小的模型打分也不低,而在成本上相对轻量的两个模型会比GPT-4便宜。Anthropic此次发布的Opus、Sonnet和Haiku分别针对不同的性能需求和成本效益。据官方介绍,Opus是最智能的模型,可以处理复杂的分析、具有多个步骤的较长任务以及高阶数学和编码任务;Sonnet是性能和速度的最佳组合,可实现高效、大体量的任务;Haiku是最快且最具成本效益的模型,可以执行轻量级操作,具有行业领先的速度。在成本上,能力最好的Claude 3 Opus比 GPT-4 Turbo 还要贵得多:GPT-4 Turbo 每百万token的输入/输出费用为 10/30 美元 ,而 Claude 3 Opus为 15/75 美元。不过,也有更具性价比的选择,Claude 3系列中,Sonnet的输入/输出定价是3 美元/15 美元,Haiku是0.25 美元/1.25 美元。值得一提的是,此次发布的Claude 3系列模型都支持 200k的上下文窗口, Anthropic还特别表示,在这个基础上,所有三个模型都能够接受超过 100 万tokens的输入,会提供给有特定需要的客户。作为对比,2023年更新的GPT-4窗口文本容量限制是32k,而2023年11月更新的GPT-4 turbo版能够接收128k的输入,相当于10万字的小说长度。对大模型来说,上下文窗口的文本长度越大,意味着其能更好地理解长篇文章或对话。此前,上海人工智能实验室领军科学家林达华对第一财经介绍,有了长语境交互,大模型能够读几百页的财报,将里面一些非常细致的信息精准提取出来形成摘要,或者听一场几个小时的会议转录,并将会议的关键信息摘取出来,对于大模型的落地很有用。基于Claude 3在多项能力上超越了GPT-4,行业这两天也出现了“GPT4时代已过”的声音,不过,郭涛认为,Claude 3 在某些基准测试中超过了 GPT-4,并不意味着 GPT-4 的时代已经过去,一方面基准测试并不能全面反映一个模型的全部能力,例如创造性写作、情感理解或特定领域知识方面的表现;另一方面,GPT-4在许多应用中可能会比 Claude 3 更适合,“而OpenAI也在不断研发新的技术和模型,很难说 GPT-4 的时代已经过去。”能与OpenAI一较高下吗对于Claude3这次的超越,在惊叹其表现之余,业界没有太多的意外,Anthropic过去一直被视为OpenAI最大的竞争对手之一。Anthropic的核心团队来自OpenAI,其创始人达里奥·阿莫迪(Dario Amodei)曾是OpenAI的研究副总裁,也是一位与高效利他主义社区有联系的研究员,因对OpenAI的未来方向有一些分歧而离开,并在2021年成立了Anthropic,计划以可信、安全可控的方式发展AI。Anthropic是目前除OpenAI外最被看好的大模型初创公司之一。在过去一年,Anthropic狂揽约73亿美元的投资,其中,亚马逊、Google作为最主要的投资者,分别投资了40亿美元和20亿美元,韩国电信巨头SK下注约1亿美元。就在过去一个月,Anthropic再次获得7.5亿美元的投资,来自硅谷风投机构Menlo Ventures。在未来与OpenAI的竞争中,陈冉认为Anthropic的胜面不小,一方面,其团队在算法上与OpenAI几乎没有差距,且Anthropic背后有亚马逊、Google这样的靠山,算力方面也并不缺,其次,作为背后投资者亚马逊拥有许多生态和场景,相应也能提供很多高质量的数据。陈冉认为,现在大模型竞争最关键的是数据,数据的质量越高越能训练好模型。“最终Claude有可能会赢。因为特色是合规和安全。”在Claude3发布后次日,陈冉在朋友圈表示。相比GPT-4等模型,Claude对安全的强调尤为明显。在技术文档中,Anthropic表示,Claude在训练过程中重点是有帮助、无害和诚实,Anthropic通过给模型一个想法来做到这一点,即一套伦理和行为原则,模型使用这些原则来指导其输出,以避免性别歧视、种族主义和有害的产出,以及避免帮助人类从事非法或不道德的活动。此外,Anthropic还会有安全评估,信任和安全团队会监控违反原则的有害、恶意用例的提示和输出。对于Anthropic未来是否能和 OpenAI 一较高下,郭涛认为这主要取决于几方面的因素。一方面,持续的研发和创新是保持竞争力的关键。如果 Anthropic 能够持续推出先进的技术和改进,它有可能在市场上与 OpenAI 竞争。另一方面,AI 大模型的成功不仅取决于核心技术,还取决于能够建立广泛的生态系统和合作伙伴关系,他认为,OpenAI 在这方面有着较强的影响力和网络效应。此外,如何在商业模式和市场策略上进行创新和调整,也是决定未来竞争格局的重要因素。“大家有共识目前Claude 3已经在部分能力上超越GPT-4,但具体未来能不能比GPT系列好,拭目以待。”陈冉说。Claude 3出现了,GPT-5还会远吗?在Claude 3发布后不久,英伟达高级科学家Jim Fan就在X上发文调侃,“正在等待几个小时后精心安排的GPT-5的发布”。Jim Fan随后表示,“我喜欢Claude在GPT和Gemini主导的竞技场上掀起热度。但请记住,GPT-4V这个每个人都迫切想要超越的高水位线,是在2022年完成训练的。这是暴风雨前的宁静。” ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人