登Nature两年,谷歌「AI 6小时设计芯片」遭打脸?大神Jeff Dean论文被官方调查 #抽屉IT

None

相关推荐

封面图片

大脑衰老可逆转,只需注入年轻脑脊液,“返老还童”登 Nature #抽屉IT

封面图片

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了 基于此,Bard相较于3月份的首次亮相,不仅在表现上有了显著的提升,而且还具备了更多的能力。可以看到,在最新的Gemini Pro-scale加持下,Bard直接蹿升到了排行榜第二名的位置。一口气把之前的两款GPT-4模型斩于马下,甚至和排名第一的GPT-4 Turbo的差距也非常小。虽然Jeff Dean并没有具体阐述“scale”的含义,但从名称上推测,很可能是一个比初代Gemini Pro规模更大的版本。而根据前段时间外媒曝出的内部邮件,搭载Gemini Ultra的Bard Advanced已经全面开放给Google员工试用。也就是说,距离Google最强模型的上线,已经不远了。随着Google对Gemini Pro更新后不断大幅上涨的表现,也让所有人对完全体Gemini Ultra的能力有了更多的期待。不过,新推出的Bard目前只接受了约3,000次评价,而GPT-4的评价次数已高达30,000次。因此,这个结果后续很可能还会发生变动。但不管怎样,这对于Google来说是一项令人瞩目的成就,也让人对即将发布的、预期将超过Gemini Pro-Scale性能的最强AI模型Gemini Ultra充满期待。GoogleBard超越GPT-4跃居第二简单介绍一下,这个由UC伯克利主导,CMU,UCSD等顶级高校共同参与创建的聊天机器人竞技场“Chatbot Arena”,是学术圈内一个很权威的大模型对话能力排行榜。榜单通过类似Moba游戏中的“排位赛”机制,让各家大模型通过PvP的方式来排出性能高低。期间,用户会与模型(不知道具体型号)进行互动,并选择他们更喜欢的回答。而这些投票将会决定模型在排行榜上的名次。这种方式能够有效地避免很多PvE基准测试中可能出现的,通过“刷题”来提高成绩的问题,被业界认为是一个比较客观的大模型能力排行榜。为了便于区分,LMSYS Org指出,目前Gemini Pro市面上总共有3个版本:- Gemini Pro API:用户可以通过Google云的Vertex AI API进行访问- Gemini Pro(dev)API:开发者API可以通过Google AI Studio进行访问- Bard(1月4日更新的Gemini Pro):是目前唯一可以访问到1月24日更新的Gemini Pro的方式同时,GoogleBard项目的高级总监Sadovsky也透露,排行榜上的Bard和Gemini Pro(API)是两个在微调层面不同的模型,而且Bard可以检索互联网上的信息。在ChatBot Arena中,1月24号更新的Bard由于支持检索互联网,相比于之前放出的Gemini Pro(API)对于实时信息问题的回复提升巨大。从Google的这波更新可以看出,Gemini Pro的潜力似乎远远没有被完全释放,希望Google能再接再厉,对OpenAI一家独大的格局形成挑战。以下是1月14号更新的Bard在ChatBot Arena中的成绩的明细:模型A相对于模型B在所有非平局对决中获胜的比例不同模型组合间对决的次数统计(排除平局情况)通过1000轮随机抽样对Elo评分进行的自举法(Bootstrap)估计在假设等概率抽样和不存在平局的情况下,相对于所有其他模型的平均胜率Elo评分系统Elo等级分制度(Elo rating system)是一种计算玩家相对技能水平的方法,广泛应用在竞技游戏和各类运动当中。其中,Elo评分越高,那么就说明这个玩家越厉害。比如英雄联盟、Dota 2以及吃鸡等等,系统给玩家进行排名的就是这个机制。举个例子,当你在英雄联盟里面打了很多场排位赛后,就会出现一个隐藏分。这个隐藏分不仅决定了你的段位,也决定了你打排位时碰到的对手基本也是类似水平的。而且,这个Elo评分的数值是绝对的。也就是说,当未来加入新的聊天机器人时,我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。具体来说,如果玩家A的评分为Ra,玩家B的评分为Rb,玩家A获胜概率的精确公式(使用以10为底的logistic曲线)为:然后,玩家的评分会在每场对战后线性更新。假设玩家A(评分为Ra)预计获得Ea分,但实际获得Sa分。更新该玩家评分的公式为:网友热议对此,网友提问:现在能够访问的Bard就是这个排名第二的Bard了吗?Google官方回复,是的,而且现在访问的Bard比排行榜的上的Bard还能支持更多的像地图扩展等应用。不过还是有网友吐槽,即使在PvP排行榜上Bard已经取得了很好的成绩,但是对于理解用户需求和解决实际问题的能力,Bard和GPT-4依然还有很大差距。也有网友认为,用能联网的Bard和离线的GPT-4打有失公平。甚至,就这样还没打过……而最有意思的,还要数网友在排行榜中发现的“华点”了:号称是GPT-4最大竞品的Claude居然越更新越弱了。对此,之前有分析认为,Anthropic一直在大力发展的与人类对齐,会严重影响模型的性能。GPT-4 Turbo超长上下文A/B测试有趣的是,这个连Jeff Dean都亲自下场的“刷榜”,正巧就在OpenAI连发5款新模型的第二天。根据OpenAI的介绍,新版GPT-4 Turbogpt-4-0125-preview,不仅大幅改善了模型“偷懒”的情况,而且还极大地提升了代码生成的能力。不过,正如大家对Bard的怀疑,GPT-4这次到底有没有变强也有待验证。对此,AI公司Smol的创始人Shawn Wang,就在超过100k单词的超长上下文中,对比测试了新旧GPT4-Turbo的总结能力。Wang表示,两次测试使用的是完全相同提示词,以及基本相同的语料库。虽然没有严格严格,但每个模型都进行了超过300次的API调用,因此对于总结任务而言,这一结果还是具有一定参考价值的。结果显示,2024年1月的GPT4-Turbo花费了19分钟来生成20,265个单词,相比之下,2023年11月的用16分钟生成了18,884个单词。也就是说,新模型的生成速度大约慢了 18%,且生成文本的长度平均偏长约7%。质量方面:- 2024年1月的模型在主题选择上略有改善,但仍存在问题- 2023年11月的模型会产生更多错误信息- 2024年1月的模型在总结中添加小标题的能力略有提升- 2024年1月的模型出现了一次严重的格式错误,而这在之前是极为罕见的- 2023年11月的模型文本详情更加丰富总体而言,新版GPT4-Turbo在总结这一应用场景上有所退步。左侧:2023年11月;右侧:2024年1月(左右滑动查看全部)OpenAI最后的“开源遗作”两周年不得不说,AI领域的发展过于迅猛,甚至让人对时间的流速都产生了错觉。今天,英伟达高级科学家Jim Fan发推纪念了InstructGPT发布二周年。在这里,OpenAI定义了一套标准流程:预训练 -> 监督式微调 -> RLHF。直到今天,这依然是大家遵循的基本策略(尽管有些许变化,比如DPO)。它不仅仅是大语言模型从学术探索(GPT-3)到转化为具有实际影响力的产品(ChatGPT)的关键转折点,而且也是最后一篇OpenAI详细说明他们如何训练前沿模型的论文。论文地址: InstructGPT在2022年的NeurIPS会议上首次亮相,但它并不是RLHF的发明者。实际上,相关博客将读者引向了OpenAI团队在2017年完成的原始RLHF研究。这项研究最初的目的是解决模拟机器人领域中难以明确定义的任务通过一名人类标注者提供的900个二选一偏好,RLHF让一个简单的“跳跃”机器人在模拟环境中学会了后空翻。论文地址: 模型提供了三种规模:1.3B、6B、175B。与旧的、需要复杂提示设计的GPT-3-175B相比,标注者明显更喜欢Instruct-1.3B。微软最知名的“小模型”Phi-1也是1.3B。- InstructGPT展示了如何精彩地呈现研究成果。三个步骤的图表清晰易懂,并且成为AI领域最标志性的图像之一。引言部分直接了当,用粗体突出了8个核心观点。对局限性和偏见的讨论实事求是、坦诚直接。 ... PC版: 手机版:

封面图片

英伟达谷歌NYU齐上阵 用LLM完成芯片设计

英伟达谷歌NYU齐上阵 用LLM完成芯片设计 它们分别开发出一款AI工具旨在通过⾃动编写硬件代码和验证代码,加快⼯程师的⼯作速度,并通过总结笔记和状态更新来帮助⼤型设计团队协同⼯作。让AI参与芯片设计,全都是因2023年⼈⼯智能热潮掀起,专用AI芯片的供应一直处于紧张状态。与此同时,摩尔定律(即芯⽚中的晶体管数量⼤约每两年翻⼀番)的预言终结,也促使许多公司开始探索全新的芯⽚架构,以⽣产更多专⽤芯⽚。专家表⽰,美国没有⾜够的⼯程师能够为AI以及⾃动驾驶汽车和⽆⼈机等特定应⽤设计这些先进的芯⽚,而当前这些应⽤的需求都在不断增长。英伟达ChipNeMo,专供AI芯设计英伟达应⽤深度学习研究的副总裁Bryan Catanzaro表示,由于GPU能够同时处理成千上万的任务,因此需要近千⼈来制造,⽽且每个⼈都必须了解设计的各个部分是如何协同⼯作的,同时还要不断改进。对此,英伟达团队开发了一种全新定制化大模型ChipNeMo,能够执行诸如回答有关GPU架构的问题,或⽣成芯⽚设计语⾔代码等任务。研究人员在开源Llama 2模型的基础上,对这款AI系统进行了训练。与此同时,该AI系统也是为了与Synopsys等现有设计⾃动化⼯具配合使⽤。英伟达的内部⼯程师开始使⽤ChipNeMo一年以来,Catanzaro称,他们发现该系统在培训初级⼯程师、总结100个不同团队的笔记,状态更新⽅⾯⾮常有⽤。Google、芯片设计AI公司上阵对于⾕歌DeepMind,他们也开发了⼀套AI系统来改进逻辑合成。这是芯⽚设计的⼀个阶段,包括将电路⾏为描述转化为实际电路。⾕歌表⽰,这些技术可能会被⽤于改进⾃⼰的定制⼈⼯智能芯⽚,即“张量处理单元”(TPU)。另外,芯片设计公司Synopsys去年发布了一款AI工具名为Synopsys.ai Copilot。这是与微软合作通过OpenAI的⼤模型开发的工具,旨在帮助工程师们开展合作。该公司表示,微软的内部硅团队正在使用该工具来支持其工程需求。这款AI⼯具可以回答有关如何使⽤公司设计⼯具的问题,并能创建⼯作流程脚本。它还可以生成RTL(一种芯片设计语言,用于规范芯片架构),只需用简单的英语进行对话即可。学术界研究爆发在学术界,也有诸多研究朝着这个方向开展。包括纽约大学在内多所大学进行的研究,致力于发现确定生成式AI加速芯片设计的其他方法。其中一些研究得到了Synopsys,以及芯片巨头⾼通等公司的资助。QTcore-C1,⼀种由纽约⼤学研究⼈员通过与ChatGPT对话命名和设计的芯⽚纽约⼤学坦登⼯程学院的⼀个团队通过与ChatGPT对话,在⼤约⼀个⽉的时间⾥设计出了⼀款芯⽚。这项技术被称为“Chip Chat”,研究⼈员只需与ChatGPT对话, 就能⾃动编写描述芯⽚功能的芯⽚设计语⾔ Verilog。纽约⼤学坦登⼯程学院电⽓与计算机⼯程研究所副教授Siddharth Garg表示,“通过使用与ChatGPT相关的AI系统,研究人员希望将硬件设计时间加速到⼀个⽉或更短的时间”。通常来说,设计一款最复杂的微芯⽚,可能需要耗费长达半年,甚至更长的时间。但这些AI工具并非,无所不能。德克萨斯大学奥斯汀分校电气与计算机工程学教授David Pan说,目前,这些工具主要用于培训年轻的芯片设计师、编写硬件语言和报告错误等方面。⽬前的⼯具还有其他局限性。⼯程师必须仔细验证AI⽣成的输出结果, ⽽且⽬前还没有⼀种解决⽅案可以⾃动完成从设计到验证、实现设计的晶体管以及检查设计的电⽓特性等整个芯⽚设计流程。Synopsys公司的Krishnamoorthy估计,利⽤⽣成式AI⾃主创建功能芯⽚的能⼒⼤约还需要5年时间。参考资料: ... PC版: 手机版:

封面图片

【ChatGPT爆红,谷歌:AI聊天技术发展过快或有损公司声誉】Jeff Dean表示谷歌其实完全有能力拿出类似的成果。只是一旦

【ChatGPT爆红,谷歌:AI聊天技术发展过快或有损公司声誉】Jeff Dean表示谷歌其实完全有能力拿出类似的成果。只是一旦出了纰漏,谷歌这样的企业巨头无疑需要承担更高的经济和声誉成本。 #抽屉IT

封面图片

分析师Jeff Pu:四款iPhone 16都将配备A18系列芯片 #抽屉IT

封面图片

英特尔挖走苹果M1首席芯片设计师Jeff Wilcox - Apple 苹果 -

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人