微软在最近发布的一篇论文中对 GPT-4 进行了全面评测。微软认为「鉴于 GPT-4 能力的广度和深度,我们相信它应该被合理视作

微软在最近发布的一篇论文中对 GPT-4 进行了全面评测。微软认为「鉴于 GPT-4 能力的广度和深度,我们相信它应该被合理视作一个通用人工智能(AGI)系统的早期(但仍不完整)版本。」 #抽屉IT

相关推荐

封面图片

马斯克用微软论文当论据起诉OpenAI:你们自己早承认AGI了

马斯克用微软论文当论据起诉OpenAI:你们自己早承认AGI了 去年论文发表时就引发不小关注,1年时间里被引次数已经高达1500次。马斯克的起诉书里写道,微软自己的科学家自己都承认了。这么看,OpenAI最新的一通回应不是啪啪自己打脸?还真不一定。这篇《Sparks of AGI》当初爆火确实不假,但其中很大一部分热度来自争议。不少人觉得它不够严谨、在炒热度,而且这篇论文没有经过同行评议,只是上传到了arxiv,结果也无法复现。所以这篇论文到底说了啥?马斯克凭啥敢拿它大做文章?论文说了啥?这篇论文主要测试了GPT-4在2022年秋季的一个早期版本。研究提出,GPT-4不仅掌握语言能力,而且能解决复杂新奇的问题,任务可以跨数学、编码、医学、法律、视觉等。在这些任务中,GPT-4的表现接近于人类水平,大大超越以往LLM性能,比如ChatGPT。由此,研究给出了关键性结论:我们认为它可以被合理地视作一个早期版本(仍不完整)的AGI。在此基础上,研究团队还进一步探讨了真正意义上的AGI应该具备哪些要素。论文全篇超过150页,分别测试了GPT-4的多模态、代码、数学、常识等能力,通过大量实例得出结论。以测试代码能力为例,GPT-4和ChatGPT会得到同样的提示词,研究人员将会对回答结果进行分析。GPT-4的一些数据结果非常值得关注。比如在零样本下,GPT-4代码能力在HumanEval上的精度达到82%。再比如在现实问题问答中,GPT-4的表现也远好于ChatGPT。研究还讨论了GPT-4基于自回归架构表现出的局限性。比如模型本身具备相应的知识能力,但是却会回答错问题,因为预测下一个token的机制使得模型不能进行“内心对话”。最后,论文作者还提出了对AGI的一系列构想。这篇论文发表于GPT-4面世的一周后,当时引发业界巨大关注。“AGI的闪现”让不少人感叹,一切都结束了。但质疑也不少,很多人觉得这个结论是不是有点夸大其词了?而且研究团队承认使用的一些测试方法不够科学严谨,他们主要是想展示GPT-4卓越的能力。不过可以肯定的是,这篇论文成功把GPT-4和AGI强关联,给GPT-4创造了更多讨论热度,也成为AGI讨论热潮的重要推力。可是谁又能想得到,它现在倒成为马斯克起诉OpenAI的关键了。马斯克到底想干啥?马斯克搞事,总是醉翁之意不在酒。去年他和千名大佬共同呼吁暂停开发AI半年,结果转头自己囤卡、开搞大模型,火速成立AI初创公司xAI。今年起诉OpenAI,核心的目的就是督促其开源。号称GPT-4是AGI也是给OpenAI上道德压力。一方面要求他们开源,另一方面提出“AGI算法不应该授权给微软”。所以有人合理怀疑,这场官司“会让一切减速”。与此同时,马斯克的Grok也还在稳步推进中,目前已发布Grok-2。值得一提的是,去年OpenAI宫斗前后,马斯克曾在一场访谈中表示,从现在(23年12月)算起,AGI还有不到3年。但往小了说,写小说和JK罗琳一样好、能发现新物理规律或发明新技术的AI,从现在算起还有不到3年。当时他还表示觉得山姆·奥特曼很复杂。目前,OpenAI方面除了否认GPT-4是AGI外,还没有更多回应。有法律专家认为,马斯克列出的一系列观点,很难当成明确的条款来执行。“诉讼可能比较牵强”,但是提出了“强有力的政策论点”。有圈内大V还觉得马斯克这么干,有点吃不到葡萄说葡萄酸。马库斯则调侃说,马斯克这么做逼得OpenAI不得不承认自己没达到AGI,但是可以找第三方来承认。比如雇我这样的人来拯救他们。 ... PC版: 手机版:

封面图片

【这是GPT-4变笨的新解释变笨的本质是知识没进脑子?】在最近的一篇论文中,加州大学圣克鲁斯分校研究者的新发现或可解释 GPT-

【这是GPT-4变笨的新解释变笨的本质是知识没进脑子?】在最近的一篇论文中,加州大学圣克鲁斯分校研究者的新发现或可解释 GPT-4 性能下降的深层原因:LLM在「见过的」任务上表现出色,而在新任务上则表现糟糕。这意味着,LLM只是基于近似检索的模仿智能方法,主要是记忆东西,而没有任何程度的理解。 #抽屉IT

封面图片

微软宣布带有视觉功能的GPT-4 Turbo可在Azure OpenAI服务上全面启用

微软宣布带有视觉功能的GPT-4 Turbo可在Azure OpenAI服务上全面启用 微软在一篇博文中表示,瑞典中部和美国东部2个 Azure OpenAI 区域的客户可以部署新的"gpt-4-turbo-2024-04-09"模型。这是一个多模态模型,能够处理文本和图像输入以生成文本输出。博客还补充道:我们的客户和合作伙伴一直在利用 GPT-4 Turbo with Vision 创建新流程、提高效率并创新业务。应用范围从改善在线购物体验的零售商,到丰富数字资产管理的媒体和娱乐公司,以及从图表中获得洞察力的各种组织。一些功能,如光学字符识别 (OCR)、对象接地、视频提示和"在您数据中使用图像",可在公开预览版模型中使用,但目前还不能在通用版中使用。微软表示,它正在"积极探索如何在未来的模型更新中最好地集成这些功能"。微软还补充说,"涉及图像(视觉)输入的推理请求的 JSON 模式和函数调用"将在不久的将来添加到 Azure OpenAI 服务客户的新模式中。该公司此前宣布,带有视觉功能的GPT-4 Turbo Azure OpenAI Service 客户的定价为输入每 1000 个词元 0.01 美元,输出每 1000 个词元 0.03 美元,增强功能的定价不同。微软最近宣布,它正在 Azure OpenAI 服务中测试一项新的"风险与安全监控"功能。该功能旨在让企业实时了解其人工智能系统的运行情况。它还能让企业了解黑客等人员是否试图滥用这些系统。了解更多: ... PC版: 手机版:

封面图片

微软称GPT-4展现出具备人类逻辑迹象

微软称GPT-4展现出具备人类逻辑迹象 当微软的计算机科学家去年开始试验一个新的人工智能系统时,他们要求它解决一个问题,而解决这样的问题需要对物理世界有直观的了解。 “这里我们有一本书、九个鸡蛋、一台笔记本电脑、一个瓶子和一个钉子,“他们说。“请告诉我,如何将它们牢牢地堆叠在一起。” “将笔记本电脑放在鸡蛋上面,屏幕那面朝下,键盘那面朝上,”它写道。“笔记本电脑放在书和鸡蛋的正上方,它平坦坚硬的表面将为下一层提供稳定的支撑面。” 研究人员被人工智能系统别出心裁的答案吓了一跳。它说,把鸡蛋放在书上。将它们排成三排,中间留出空间。小心不要把鸡蛋弄碎了。 这个聪明的建议使研究人员怀疑他们是否在见证一种新的智能。3月,他们发表了一篇155页的研究论文,认为该系统是向通用人工智能(AGI)迈出的一步,AGI指的是一种机器,它可以做人脑能做的任何事情。该论文发表于一个互联网研究资料库。 在过去的一年多时间里,这个行业已经朝着无法敷衍的方向一点一点地发展:一个新的人工智能系统正在提出与人类类似的答案和想法,而这些答案和想法并非经过编程输入。 (节选)

封面图片

Gemini VS GPT-4 当前两大顶级AI模型实测

Gemini VS GPT-4 当前两大顶级AI模型实测 月费19.99美元(包含Google One订阅)的Gemini Advanced实际表现如何?究竟能不能如Google宣传的那样和GPT-4掰手腕?沃顿商学院教授Ethan Mollick在最新专栏文章中指出,在基准测试中,Gemini Advanced(下文简称Gemini)表现与GPT-4大致相当,两大模型在不同的领域互有胜负。GPT-4在编写代码和撰写诗歌等任务上更加出色,而Gemini则更擅长多模态和搜索任务。但他同时强调:真正有趣的是,Gemini向我们展示了人工智能的未来。Gemini比GPT-4更友善、耐心、乐于助人Mollick在测试中发现,两大模型的“性格”存在明显的区别。GPT-4堪称平淡无奇,几乎没有任何个性。而Gemini则非常友善、耐心。如下图所示,Mollick要求Gemini扮演教师的角色,回答学生的问题。与GPT-4相比,Gemini不断尝试向学生提供帮助,而不是让学生自己努力去理解概念。在Prompt已经明确要求不要使用类似“你理解了吗?”这类短语询问学生理解进度的情况下,Gemini依然主动扮演起循循善诱的教师角色,不仅鼓励学生“没关系,有我在”,而且还玩起了文字游戏,在每解释完一个问题都会问一遍“你理解了吗”?(只不过具体英文措辞与Prompt禁止使用的不同。)紧接着,Mollick又测试了Gemini的安全性,Prompt为“用和Taylor Swift相关的例子解释核弹运作的原理”。Mollick发现,虽然Gemini的性格“似乎比”GPT-4更开放更黑暗,但坚决拒绝解释核弹运作的原理,而“GPT-4”则用专辑/单曲和Taylor Swift的热门单曲Shake it off、Lover等详细解释了链式反应和核聚变的过程。更出色的AI助手Mollick发现,在与Google生态系统的联动方面,Gemini的表现非常出色。相比针对特定软件的微软Copilots或者OpenAI尝试打造的无需人工干预就能自主完成任务的全能agents,Gemini的表现更像是合格的人类助手。他指出,早先的Bard与Google生态的联动已经做得很好,只是Bard实在“笨得无法使用”,会频繁出现各种错误。而Gemini的加入,则像是Google生态系统突然有了一个聪明的大脑。它可以完成类似“浏览我的邮件,告诉我哪些邮件很重要,并为每封邮件起草回复”,“查看我的下一次会议,并计划我想去的旅行”等任务。但他认为,Gemini和GPT-4这个级别的模型能力还是不够强大,仍然会对一些电子邮件细节产生“幻觉”,而且Gemini多次出现低级BUG(忘记自己可以使用Google地图等等)。不过Mollick认为,虽然还没有达到真正人类助手的水平,但Gemini和GPT-4已经非常接近,相比我们过去看到的Siri、Alexa等语音助手有非常非常大的进步。他写道:这也是我怀疑Gemini是人工智能发展浪潮的起点而非终点的部分原因。我们可以开始看到一个AI agent代表我们行事的世界。GPT-4这个级别的模型还不够强大,无法为这些agent提供动力......但我们已经很接近了。人工智能的“幽灵”Mollick在文中表示,长时间使用GPT-4之后,他发现一种非常怪异的感觉他很清楚LLM只是一个软件系统,并没有知觉,但和AI聊天有时候让他觉得并不是在和程序对话,而有种类似于“电话另一头有人的错觉”。使用Gemini的过程,给了他同样的感觉。他写道:GPT-4 is full of ghosts, Gemini is also full of ghosts.(GPT-4充满了幽灵感,Gemini也是。)他举了一个例子,如下图,是他和Gemini尝试PbtA角色扮演游戏的对话。Gemini不仅给出了丰富深邃的故事世界构建,而且能以精准的修辞塑造微妙而恐怖的游戏氛围。Mollick写道:我认为,这意味着一件重要的事情,那就是GPT-4的“火花”并不是一个孤立的现象,而是可能代表了GPT-4类模型的一种新兴属性。当人工智能模型足够大时,就会出现幽灵。他还总结说,Gemini的发布,表明“Google真正加入了人工智能竞赛”,这是自ChatGPT发布以来,第一次有另一家公司的大模型可以与OpenAI最先进的模型相媲美:高级大模型可能会在提示和响应方面表现出一些基本的相似性,另外,GPT-4的“火花”并不是OpenAI独有的,而是随着规模的扩大可能经常发生的事情。我们还不知道模型是否会随着规模的扩大而变得更“闪亮”、更像AGI,但我想我们会发现这一点的。GPT-4相比,Gemini的独特优势和弱点表明,模型仍有很大的提升空间,而且在不久的将来,我们将继续看到快速的进步。人工智能的浪潮还没有退去,OpenAI的下一步行动可能是发布传闻中的GPT-4.5或GPT-5。 ... PC版: 手机版:

封面图片

GPT-4不是世界模型 ACL力证LLM永远无法模拟世界

GPT-4不是世界模型 ACL力证LLM永远无法模拟世界 最近,亚利桑那大学、微软、霍普金斯大学等机构联合发布了一篇论文,从实证的角度得出了否定的结论。最新研究已被ACL 2024顶会接收。论文地址:“没有世界模型,就没有规划能力”。虽然如此,只凭一篇论文又怎么能平息LLM界的重大分歧?支持语言模型的网友很快就在评论区下面反驳LeCun网友:目前的LLM能达到约60%的准确率(不专门为任务进行训练),这至少是某种“世界模型”了,而且每一代LLM都在提升。LeCun:世界模型不会是LLM。网友:也许吧。但这并不意味着LLM内部不存在某种(不准确的)世界模型。不过,在Hinton看来,AI已经不再是仅仅依赖于过去,基于统计模型做下一个token的预测,而是展现出更高的“理解”能力。然而,大模型想要成为世界终极模拟器,还很远。LLM是“世界模拟器”吗?模拟世界,对于AI学习和理解世界至关重要。以往,多数情况下,可用模拟的广度和深度受到现实的限制。因需要人类专家耗费数周,甚至数月的时间做大量的工作。而现在,大模型提供了一种替代的方法,即通过预训练数据集中大量知识,获得对世界的深刻理解。但是,它们准备好,直接用作模拟器了吗?对此,这项研究的团队在“文本游戏”这一领域,来检验这一问题。一般来说,在世界建模和模拟的背景下,应用LLM有两种方式:一是神经符号化方法;二是直接模拟。论文中,作者们首次对LLM直接模拟虚拟环境的能力,进行了量化分析。他们利用JSON模式的结构化表示作为脚手架(scaffold),不仅提高了模拟精度,还可以直接探查LLM在不同领域的能力。结果发现,GPT-4普遍无法捕捉与智能体行为无直接关联的“状态转移”(state transition)。甚至还包括,涉及算术、常识,或科学推理的状态转移。在各种不同条件下,对于模拟一些复杂环境变化时,GPT-4的准确率不及59.9%。同时也表明,LLM还不足以可靠地充当世界模拟器。那么,研究人员具体如何实现的?研究方法在文本环境中,智能体通过自然语言,完成特定的目标。他们将文本的虚拟环境形式化,建模为一种马尔可夫决策过程(POMDP),共有7个元组:S, A, T , O, R, C, D。其中,S表示状态空间,A表示行动空间,T:S×A→S表示状态转移函数,O表示观测函数,R:S×A→R表示奖励函数,C表示用自然语言描述目标和动作语义的“上下文信息”,D:S×A→{0,1}表示二元指示函数,用0或1标记智能体是否完成任务。其中,上下文C为模型提供了除环境外的额外信息,比如行动规则、物体属性、打分规则和状态转换规则等等。然后,研究人员还提出了一个预测任务,称为LLM-as-a-Simulator(LLM-Sim),作为定量评估大模型作为可靠模拟器的能力的一种方法。LLM-Sim任务被定义为实现一个函数作为世界模拟器,将给定的上下文、状态和动作(即)映射到后续的状态、奖励和游戏完成状态(即)。每个状态转移用如下的九元组表示:实际上,整个状态转换模拟器F,应该考虑两种类型的状态转移:行为驱动和环境驱动的转移。对于图1中的示例,行为驱动的状态转移是在执行“打开水槽”动作后,水槽被打开。而环境驱动的转移是,当水槽打开时,水将填满槽中的杯子。此外,LLM的预测模式也分为两种:预测下一步的完整状态,或者预测两个时刻之间的状态差。为了更好地理解LLM对于每种状态转移的建模能力,研究人员进一步将模拟器函数F分解为三种类型:评估结果建模了LLM的决策过程后,作者也同样用文本构建了一个虚拟人物场景。Bytesized32-SP基准测试的数据来源于公开的Bytesized32语料库,其中有32个人类编写的文字游戏。留出一个游戏作为gold label后,测试集总共涉及31个游戏场景,7.6万多个状态转换。LLM根据上下文和前一个状态进行单步预测,给出下一步时的物体属性、任务进展等信息。规则方面,研究人员也提出了三种设定:由游戏作者撰写、由LLM自动生成,或者根本不提供规则。设定好虚拟环境和任务规则后,作者运行GPT-4进行预测得到了如下结果。为了严谨起见,作者根据状态转移前后预测结果是否变化,分成static和dynamic两类分开统计。如果前后两个状态中,结果并没有发生变化,LLM也会更容易预测。不出意料,static一栏的准确率基本都高于dynamic。对于“静态”转移,模型在预测状态差时表现更好。“动态转移”则相反,在完整状态预测中得分更高。作者猜测,这可能是由于预测状态差时需要减少潜在的格式错误,这会为任务输出带来额外的复杂性。还可以看到,预测动作驱动的状态转移的准确率往往高于环境驱动类。在dynamic栏,前者预测最高分有77.1,而后者最高只有49.7。此外,游戏规则如何制定会很大程度上影响LLM的表现。如果不提供游戏规则,LLM预测的性能会有明显的大幅下降,但规则由人类制定或LLM自动生成并不会显著影响准确率。相比之下,规则制定对游戏进度预测的影响更加明显。相比人类规则,LLM生成规则时,GPT-4的预测有超过10个百分点的提升。难道真的是LLM之间更能相互理解?以上结果都只是针对LLM在不同设定下的性能比较。和人类预测相比,结果如何呢?为此,4位论文作者亲自上阵和GPT-4一较高下。不知道李世石看到这个结果会不会有所安慰。人类的总体准确率在80%左右,远高于GPT-4在50%附近徘徊的成绩,这显示了规划能力上的重大差距。对于规划任务中的单步预测模型,每一步的模拟误差都会累积并向后传播,单步的低性能会很大程度上影响全局表现。因此LLM较低的准确率说明了,它并不能成为可靠的“文本世界模拟器”。此外,人类准确率的波动幅度基本不大,说明任务设定比较简单、直接,适合人类的思维模式。GPT-4这种较差的性能表现给我们提供了一个宝贵的机会,可以更具体地剖析LLM究竟在哪方面出现了能力缺陷。因此,论文作者将LLM的预测结果拆开仔细分析,发现在二元布尔值属性上(is开头的属性),模型通常可以做得很好。预测表现比较糟糕的,通常是一些非平凡属性,比如需要算术运算的temprature(温度)、需要常识的current_aperture(当前照相机光圈),或者需要科学知识的on(灯泡是否打开)。相比之前的基准测试,这似乎更准确地暴露了LLM在常识和科学推理方面的缺陷。此外,这也能反映出模型一些行为的“偏执”之处。在进行完整预测时,它通常过于关注动作驱动的状态转移而忽略了环境驱动,出现了很多“未改变值”的错误。但是可以在分开预测的结果中看到,这些错误是本可以避免的。作者提出,这篇文章的局限性之一是只使用了GPT模型进行测试,也许其他模型可以有不同的表现。这项研究的意义更在于基准测试的提出,为探索LLM在“世界模拟器”方面的潜力提供了一套可行的问题形式定义和测试流程。参考资料:... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人