GPT-4不是世界模型 ACL力证LLM永远无法模拟世界

GPT-4不是世界模型 ACL力证LLM永远无法模拟世界最近，亚利桑那大学、微软、霍普金斯大学等机构联合发布了一篇论文，从实证的角度得出了否定的结论。最新研究已被ACL 2024顶会接收。论文地址：“没有世界模型，就没有规划能力”。虽然如此，只凭一篇论文又怎么能平息LLM界的重大分歧？支持语言模型的网友很快就在评论区下面反驳LeCun网友：目前的LLM能达到约60%的准确率（不专门为任务进行训练），这至少是某种“世界模型”了，而且每一代LLM都在提升。LeCun：世界模型不会是LLM。网友：也许吧。但这并不意味着LLM内部不存在某种（不准确的）世界模型。不过，在Hinton看来，AI已经不再是仅仅依赖于过去，基于统计模型做下一个token的预测，而是展现出更高的“理解”能力。然而，大模型想要成为世界终极模拟器，还很远。LLM是“世界模拟器”吗？模拟世界，对于AI学习和理解世界至关重要。以往，多数情况下，可用模拟的广度和深度受到现实的限制。因需要人类专家耗费数周，甚至数月的时间做大量的工作。而现在，大模型提供了一种替代的方法，即通过预训练数据集中大量知识，获得对世界的深刻理解。但是，它们准备好，直接用作模拟器了吗？对此，这项研究的团队在“文本游戏”这一领域，来检验这一问题。一般来说，在世界建模和模拟的背景下，应用LLM有两种方式：一是神经符号化方法；二是直接模拟。论文中，作者们首次对LLM直接模拟虚拟环境的能力，进行了量化分析。他们利用JSON模式的结构化表示作为脚手架（scaffold），不仅提高了模拟精度，还可以直接探查LLM在不同领域的能力。结果发现，GPT-4普遍无法捕捉与智能体行为无直接关联的“状态转移”（state transition）。甚至还包括，涉及算术、常识，或科学推理的状态转移。在各种不同条件下，对于模拟一些复杂环境变化时，GPT-4的准确率不及59.9%。同时也表明，LLM还不足以可靠地充当世界模拟器。那么，研究人员具体如何实现的？研究方法在文本环境中，智能体通过自然语言，完成特定的目标。他们将文本的虚拟环境形式化，建模为一种马尔可夫决策过程（POMDP），共有7个元组：S, A, T , O, R, C, D。其中，S表示状态空间，A表示行动空间，T:S×A→S表示状态转移函数，O表示观测函数，R:S×A→R表示奖励函数，C表示用自然语言描述目标和动作语义的“上下文信息”，D:S×A→{0,1}表示二元指示函数，用0或1标记智能体是否完成任务。其中，上下文C为模型提供了除环境外的额外信息，比如行动规则、物体属性、打分规则和状态转换规则等等。然后，研究人员还提出了一个预测任务，称为LLM-as-a-Simulator（LLM-Sim），作为定量评估大模型作为可靠模拟器的能力的一种方法。LLM-Sim任务被定义为实现一个函数作为世界模拟器，将给定的上下文、状态和动作（即）映射到后续的状态、奖励和游戏完成状态（即）。每个状态转移用如下的九元组表示：实际上，整个状态转换模拟器F，应该考虑两种类型的状态转移：行为驱动和环境驱动的转移。对于图1中的示例，行为驱动的状态转移是在执行“打开水槽”动作后，水槽被打开。而环境驱动的转移是，当水槽打开时，水将填满槽中的杯子。此外，LLM的预测模式也分为两种：预测下一步的完整状态，或者预测两个时刻之间的状态差。为了更好地理解LLM对于每种状态转移的建模能力，研究人员进一步将模拟器函数F分解为三种类型：评估结果建模了LLM的决策过程后，作者也同样用文本构建了一个虚拟人物场景。Bytesized32-SP基准测试的数据来源于公开的Bytesized32语料库，其中有32个人类编写的文字游戏。留出一个游戏作为gold label后，测试集总共涉及31个游戏场景，7.6万多个状态转换。LLM根据上下文和前一个状态进行单步预测，给出下一步时的物体属性、任务进展等信息。规则方面，研究人员也提出了三种设定：由游戏作者撰写、由LLM自动生成，或者根本不提供规则。设定好虚拟环境和任务规则后，作者运行GPT-4进行预测得到了如下结果。为了严谨起见，作者根据状态转移前后预测结果是否变化，分成static和dynamic两类分开统计。如果前后两个状态中，结果并没有发生变化，LLM也会更容易预测。不出意料，static一栏的准确率基本都高于dynamic。对于“静态”转移，模型在预测状态差时表现更好。“动态转移”则相反，在完整状态预测中得分更高。作者猜测，这可能是由于预测状态差时需要减少潜在的格式错误，这会为任务输出带来额外的复杂性。还可以看到，预测动作驱动的状态转移的准确率往往高于环境驱动类。在dynamic栏，前者预测最高分有77.1，而后者最高只有49.7。此外，游戏规则如何制定会很大程度上影响LLM的表现。如果不提供游戏规则，LLM预测的性能会有明显的大幅下降，但规则由人类制定或LLM自动生成并不会显著影响准确率。相比之下，规则制定对游戏进度预测的影响更加明显。相比人类规则，LLM生成规则时，GPT-4的预测有超过10个百分点的提升。难道真的是LLM之间更能相互理解？以上结果都只是针对LLM在不同设定下的性能比较。和人类预测相比，结果如何呢？为此，4位论文作者亲自上阵和GPT-4一较高下。不知道李世石看到这个结果会不会有所安慰。人类的总体准确率在80%左右，远高于GPT-4在50%附近徘徊的成绩，这显示了规划能力上的重大差距。对于规划任务中的单步预测模型，每一步的模拟误差都会累积并向后传播，单步的低性能会很大程度上影响全局表现。因此LLM较低的准确率说明了，它并不能成为可靠的“文本世界模拟器”。此外，人类准确率的波动幅度基本不大，说明任务设定比较简单、直接，适合人类的思维模式。GPT-4这种较差的性能表现给我们提供了一个宝贵的机会，可以更具体地剖析LLM究竟在哪方面出现了能力缺陷。因此，论文作者将LLM的预测结果拆开仔细分析，发现在二元布尔值属性上（is开头的属性），模型通常可以做得很好。预测表现比较糟糕的，通常是一些非平凡属性，比如需要算术运算的temprature（温度）、需要常识的current_aperture（当前照相机光圈），或者需要科学知识的on（灯泡是否打开）。相比之前的基准测试，这似乎更准确地暴露了LLM在常识和科学推理方面的缺陷。此外，这也能反映出模型一些行为的“偏执”之处。在进行完整预测时，它通常过于关注动作驱动的状态转移而忽略了环境驱动，出现了很多“未改变值”的错误。但是可以在分开预测的结果中看到，这些错误是本可以避免的。作者提出，这篇文章的局限性之一是只使用了GPT模型进行测试，也许其他模型可以有不同的表现。这项研究的意义更在于基准测试的提出，为探索LLM在“世界模拟器”方面的潜力提供了一套可行的问题形式定义和测试流程。参考资料：... PC版：手机版：

在Telegram中查看

相关推荐

LLaV：一个拥有类似 GPT-4 的大语言+视觉模型

LLaV：一个拥有类似 GPT-4 的大语言+视觉模型 “使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调优提高了新任务的零样本能力，但这一想法在多模式领域的探索较少。所以，我们开始尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整，并推出了 LLaVA：大型语言和视觉助手。这是一种端到端训练的大型多模态模型，连接视觉编码器和 LLM 以实现通用视觉和语言理解。早期实验表明，LLaVA 展示了令人印象深刻的多模型聊天能力，有时在看不见的图像 / 指令上表现出多模态 GPT-4 的行为，并且与合成多模态指令跟随数据集上的 GPT-4 相比，相对分数达到了 85.1%。当在 Science QA 上进行微调时，LLaVA 和 GPT-4 的协同作用达到了 92.53%，这个准确率颇高。因此，我们在 GitHub 正式开放 GPT-4 生成的视觉指令调整数据、模型和代码库。” |||||

让GPT-4帮人类训练GPT-4！OpenAI推出新模型CriticGPT

让GPT-4帮人类训练GPT-4！OpenAI推出新模型CriticGPT 美东时间6月27日周四，OpenAI公布，其研究人员训练了一个基于 GPT-4 的模型，它被称为 CriticGPT，用于捕捉ChatGPT 代码输出中的错误。简单来说就是，CriticGPT让人能用 GPT-4 查找 GPT-4 的错误。它可以写出使用者对ChatGPT响应结果的批评评论，从而帮助人类训练者在RLHF期间发现错误。OpenAI发现，如果通过CriticGPT获得帮助审查 ChatGPT编写的代码，人类训练师的审查效果比没有获得帮助的人强60%。OpenAI称，正着手将类似 CriticGPT 的模型集成到旗下 RLHF 标记管道中，为自己的训练师提供明确的AI帮助。OpenAI称，因为没有更好的工具，所以人们目前难以评估高级的AI系统的表现。而CriticGPT意味着，OpenAI向能够评估高级AI系统输出的目标迈进了一步。，OpenAI举了一个例子，如下图所示，对ChatGPT提出一个用 Python 编写指定函数的任务，对于ChatGPT根据要求提供的代码，CriticGPT点评了其中一条指令，提议换成效果更好的。OpenAI称，CriticGPT 的建议并不是全都正确无误，但OpenAI的人员发现，相比没有这种AI的帮助，有了它，训练师可以发现更多模型编写答案的问题。此外，当人们使用CriticGPT 时，这种AI模型会增强他们的技能，从而得出的批评结论比单单人类训练师做的更全面，并且比AI模型单独工作时产生的幻觉错误更少。在OpenAI的实验中，在60%以上的时间里，随机选择的训练师都更喜欢来自人类与CriticGPT 合作的批评结论，而不是来自没有CriticGPT协助的人类训练师批评。OpenAI同时提到了目前开发CriticGPT的四点局限。其中之一是，OpenAI用 ChatGPT 的简短答案训练CriticGPT，因此未来需要发掘能帮助训练师理解冗长且复杂任务的方法。第二点是，模型仍然会产生幻觉，有时训练师在看到这些幻觉后会犯下标记错误。第三点是，有时现实世界中的错误可能分散在答案的许多部分之中，OpenAI目前的工作重点是让模型指出一处的错误，未来还需要解决分散在不同位置的错误。第四点，OpenAI指出，CriticGPT 只能提供有限的帮助：如果ChatGPT面对的任务或响应极其复杂，即使是有模型帮助的专家也可能无法正确评估。最后，OpenAI表示，为了协调日益复杂的 AI 系统，人们需要更好的工具。在对 CriticGPT 的研究中，OpenAI发现，将 RLHF 应用于 GPT-4 有望帮助人类为 GPT-4 生成更好的 RLHF 数据。OpenAI计划，进一步扩大这项工作，并将其付诸实践。OpenAI在原名Twitter的社交媒体X上公布了新模型CriticGPT后，一条点赞超1万的网友评论称，自我改进已经开始了。另一条点赞上万的热截取了OpenAI的相关研究文章结论，其中提到，在智能方面，大语言模型（LLM）和LLM的批评都只会继续改进，而人类的智能不会，这条评论感叹，真是悲观。还有网友引用了漫威超级英雄电影《复仇者联盟》中灭霸的一句台词，点评OpenAI所说的用GPT-4找GPT-4的错误：“我用宝石摧毁了宝石。” ... PC版：手机版：

LLM（大语言模型）无法对数字进行准确运算的底层原因是什么？

LLM（大语言模型）无法对数字进行准确运算的底层原因是什么？ Quokka的回答因为语言模型本来就不能。语言和数学是两套系统，语言里包含的数学部分是很少的，人能口算的也就是个位数顶多两三位数的运算，再多的话肯定是要用纸笔列算式的这时候走的是一个规则明确的专家系统，而不是语言这种混沌的系统。当然，你可以用语言系统来模拟算术系统的执行，你强制让 LLM 列竖式一步一步来那他也能做对啊： Show Your Work: Scratchpads for Intermediate Computation with Language Models 你非要他一步就算出来 8 位数乘 8 位数的结果，人也做不到啊，只能告诉你结果大概是一个15或者16位数，开头是几结尾是几，中间蒙一下错个几位，跟人类行为一模一样。要是从计算的角度讲，可以从计算复杂性的角度来解释。每个问题都有一个最低的时间和空间复杂度，对 N 位数字进行运算至少需要多少位的空间/多少计算量，LLM 推理一步只能模拟使用固定的空间和计算量，所以需要推理 X 步才能做完对应的计算。CoT 等方法本质都是在增加模型可以使用的空间和时间。 via 知乎热榜 (author: Quokka)

大模型实时打《街霸》捉对PK GPT-4居然不敌3.5

大模型实时打《街霸》捉对PK GPT-4居然不敌3.5 这种新玩法吸引了不少网友来围观。由于项目是在Mistral举办的黑客马拉松活动上开发，所以开发者只使用OpenAI和Mistral系列模型进行了测试。排名结果也很出人意料。经过342场对战后，根据棋类、电竞常用的ELO算法得出的排行榜如下：最新版gpt-3.5-turbo成绩断崖式领先，Mistral小杯排第二。更小的模型超过了更大的如GPT-4和Mistral中杯大杯。开发者认为，这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。与传统的强化学习也有所不同，强化学习模型相当于根据奖励函数“盲目地”采取不同行动，但大模型完全了解自身处境并有目的的采取行动。考验AI的动态决策力AI想在格斗游戏里称王，需要哪些硬实力呢？开发者给出几个标准:反应要快：格斗游戏讲究实时操作，犹豫就是败北脑子要灵：高手应该预判对手几十步，未雨绸缪思路要野：常规套路人人会，出奇制胜才是制胜法宝适者生存：从失败中吸取教训并调整策略久经考验：一局定胜负不说明问题，真正的高手能保持稳定的胜率具体玩法如下：每个大模型控制一个游戏角色，程序向大模型发送屏幕画面的文本描述，大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。第一个挑战是定位人物在场景中的位置，通过检测像素颜色来判断。由于目前大模型数学能力还都不太行，直接发送坐标值效果不好，最终选择了将位置信息改写成自然语言描述。所以对于AI来说，实际上他们在玩的是一种奇怪的文字冒险游戏。再把大模型生成的动作招式映射成按键组合，就能发送给游戏模拟器执行了。在试验中发现，大模型可以学会复杂的行为，比如仅在对手靠近时才攻击，可能的情况下使用特殊招式，以及通过跳跃来拉开距离。从结果上可以看出，与其他测试方法不同，在这个规则下似乎更大的模型表现越差。开发者对此解释到：目标是评估大模型的实时决策能力，规则上允许AI提前生成3-5个动作，更大的模型能提前生成更多的动作，但也需要更长的时间。在推理上的延迟差距是有意保留的，但后续或许会加入其他选项。后续也有用户提交了流行开源模型的对战结果，在7B及以下量级的战斗中，还是7B模型排名更靠前。从这个角度看，这种新型基准测试为评估大模型的实用性提供了新思路。现实世界的应用往往比聊天机器人复杂得多，需要模型具备快速理解、动态规划的本领。正如开发者所说，想要赢，要在速度和精度之间做好权衡。GitHub项目： ... PC版：手机版：

AI可能比你更会炒股？最新研究：GPT-4比人类更擅长金融分析和预测

AI可能比你更会炒股？最新研究：GPT-4比人类更擅长金融分析和预测这一发现可能会颠覆金融服务业。与其他商业部门一样，金融服务业正在竞相采用生成式人工智能技术。根据这项最新研究的研究，在分析财务报表以及根据这些报表做出预测等方面，大语言模型比人类做得更好。“即使没有任何叙述或行业特定信息，大语言模型在预测盈利变化方面的能力也优于金融分析师们，”该研究称，“在分析师遇到难题时，大语言模型比人类分析师表现出相对优势。”该研究利用“思维链（chain-of-thought）”提示，指导GPT-4识别财务报表的趋势并计算不同的财务比率。在此基础上，大语言模型可以分析信息并预测未来的收益结果。该研究称：当我们使用思维链提示来模拟人类推理时，我们发现GPT的预测准确率达到了60%，明显高于分析师的准确率。人类分析师在预测准确度方面接近50%的范围。该研究的作者还表示，大语言模型能够在信息不完整的情况下识别财务模式和商业概念，这表明该技术应该在未来的财务决策中发挥关键作用。最后，该研究发现，如果将GPT-4的金融敏锐性应用于交易策略，能够获得更多交易回报，通常能跑赢大盘。研究称：“我们发现，基于GPT预测的多空策略表现优于市场，并产生显著的阿尔法和夏普比率（对资产的风险和收益进行综合考量的指标）。” ... PC版：手机版：

用GPT-4纠错GPT-4 OpenAI推出CriticGPT模型

用GPT-4纠错GPT-4 OpenAI推出CriticGPT模型这一新模型的发布意在向投资者传达，OpenAI在RLHF赛道上的领先地位。RLHF的一个关键部分就是收集比较，让人工智能训练师对不同的ChatGPT回答进行评分，并反馈给ChatGPT。研究发现，当训练师借助CriticGPT来审查ChatGPT输出代码时，他们的表现要比没有得到帮助的人高出60%。并且，在CriticGPT的帮助下，他们的指正比自己单独做的更加全面。CriticGPT的审查随着大模型在推理和行为方面的进步，ChatGPT变得更加准确，它的错误也变得更加微妙。这可能会使人工智能训练师很难发现其中不准确的情况，从而使RLHF的比较任务更加困难。若是如果没有更好的工具，人们很难对这些系统进行评估。而OpenAI指出，CriticGPT模型将有能力评估先进人工智能系统的输出。OpenAI举了一个例子：用户对ChatGPT下达“用Python编写指定函数”的任务，ChatGPT根据这一指令给出了相关代码。对于ChatGPT给出的代码，CriticGPT点评了其中一条，并给出了效果更好的替代方案。还有一项数据显示，在OpenAI的实验中，随机训练师在超过60%的时间里更倾向于人类与CriticGPT合作后得出的指正，而不是单纯由人类训练师作出的批评。不过，OpenAI也指出，CriticGPT的建议并不总是正确的，但与没有人工智能的帮助相比，它还是可以帮助训练师找出模型中的更多问题。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人