LLM（大语言模型）无法对数字进行准确运算的底层原因是什么？

LLM（大语言模型）无法对数字进行准确运算的底层原因是什么？ Quokka的回答因为语言模型本来就不能。语言和数学是两套系统，语言里包含的数学部分是很少的，人能口算的也就是个位数顶多两三位数的运算，再多的话肯定是要用纸笔列算式的这时候走的是一个规则明确的专家系统，而不是语言这种混沌的系统。当然，你可以用语言系统来模拟算术系统的执行，你强制让 LLM 列竖式一步一步来那他也能做对啊： Show Your Work: Scratchpads for Intermediate Computation with Language Models 你非要他一步就算出来 8 位数乘 8 位数的结果，人也做不到啊，只能告诉你结果大概是一个15或者16位数，开头是几结尾是几，中间蒙一下错个几位，跟人类行为一模一样。要是从计算的角度讲，可以从计算复杂性的角度来解释。每个问题都有一个最低的时间和空间复杂度，对 N 位数字进行运算至少需要多少位的空间/多少计算量，LLM 推理一步只能模拟使用固定的空间和计算量，所以需要推理 X 步才能做完对应的计算。CoT 等方法本质都是在增加模型可以使用的空间和时间。 via 知乎热榜 (author: Quokka)

在Telegram中查看

相关推荐

大语言模型（LLM）微调技术笔记 || #笔记

大语言模型（LLM）微调技术笔记 || #笔记在预训练后，大模型可以获得解决各种任务的通用能力。然而，越来越多的研究表明，大语言模型的能力可以根据特定目标进一步调整。这就是微调技术，目前主要有两种微调大模型的方法 1：指令微调，目标是增强（或解锁）大语言模型的能力。 2：对齐微调，目标是将大语言模型的行为与人类的价值观或偏好对齐。

《慕课网-体系课-LLM大语言模型算法特训带你转型AI大语言模型算法工程师》

《慕课网-体系课-LLM大语言模型算法特训带你转型AI大语言模型算法工程师》简介：慕课网-体系课-LLM大语言模型算法特训带你转型AI大语言模型算法工程师是一本围绕其核心主题展开的深刻探索之作，书中详细讨论了与其主题相关的各类观点与现实应用，带给读者全新的思考视角。这本书为那些想深入了解相关领域的读者提供了充实的内容，值得一读。更多详情请访问相关链接。标签： #慕课网#慕课网-体系课-LLM大语言模型算法特训带你转型AI大语言模型算法工程师#书籍文件大小：NG 链接：https://pan.quark.cn/s/44c7b7c0fd8c

GPT-4不是世界模型 ACL力证LLM永远无法模拟世界

GPT-4不是世界模型 ACL力证LLM永远无法模拟世界最近，亚利桑那大学、微软、霍普金斯大学等机构联合发布了一篇论文，从实证的角度得出了否定的结论。最新研究已被ACL 2024顶会接收。论文地址：“没有世界模型，就没有规划能力”。虽然如此，只凭一篇论文又怎么能平息LLM界的重大分歧？支持语言模型的网友很快就在评论区下面反驳LeCun网友：目前的LLM能达到约60%的准确率（不专门为任务进行训练），这至少是某种“世界模型”了，而且每一代LLM都在提升。LeCun：世界模型不会是LLM。网友：也许吧。但这并不意味着LLM内部不存在某种（不准确的）世界模型。不过，在Hinton看来，AI已经不再是仅仅依赖于过去，基于统计模型做下一个token的预测，而是展现出更高的“理解”能力。然而，大模型想要成为世界终极模拟器，还很远。LLM是“世界模拟器”吗？模拟世界，对于AI学习和理解世界至关重要。以往，多数情况下，可用模拟的广度和深度受到现实的限制。因需要人类专家耗费数周，甚至数月的时间做大量的工作。而现在，大模型提供了一种替代的方法，即通过预训练数据集中大量知识，获得对世界的深刻理解。但是，它们准备好，直接用作模拟器了吗？对此，这项研究的团队在“文本游戏”这一领域，来检验这一问题。一般来说，在世界建模和模拟的背景下，应用LLM有两种方式：一是神经符号化方法；二是直接模拟。论文中，作者们首次对LLM直接模拟虚拟环境的能力，进行了量化分析。他们利用JSON模式的结构化表示作为脚手架（scaffold），不仅提高了模拟精度，还可以直接探查LLM在不同领域的能力。结果发现，GPT-4普遍无法捕捉与智能体行为无直接关联的“状态转移”（state transition）。甚至还包括，涉及算术、常识，或科学推理的状态转移。在各种不同条件下，对于模拟一些复杂环境变化时，GPT-4的准确率不及59.9%。同时也表明，LLM还不足以可靠地充当世界模拟器。那么，研究人员具体如何实现的？研究方法在文本环境中，智能体通过自然语言，完成特定的目标。他们将文本的虚拟环境形式化，建模为一种马尔可夫决策过程（POMDP），共有7个元组：S, A, T , O, R, C, D。其中，S表示状态空间，A表示行动空间，T:S×A→S表示状态转移函数，O表示观测函数，R:S×A→R表示奖励函数，C表示用自然语言描述目标和动作语义的“上下文信息”，D:S×A→{0,1}表示二元指示函数，用0或1标记智能体是否完成任务。其中，上下文C为模型提供了除环境外的额外信息，比如行动规则、物体属性、打分规则和状态转换规则等等。然后，研究人员还提出了一个预测任务，称为LLM-as-a-Simulator（LLM-Sim），作为定量评估大模型作为可靠模拟器的能力的一种方法。LLM-Sim任务被定义为实现一个函数作为世界模拟器，将给定的上下文、状态和动作（即）映射到后续的状态、奖励和游戏完成状态（即）。每个状态转移用如下的九元组表示：实际上，整个状态转换模拟器F，应该考虑两种类型的状态转移：行为驱动和环境驱动的转移。对于图1中的示例，行为驱动的状态转移是在执行“打开水槽”动作后，水槽被打开。而环境驱动的转移是，当水槽打开时，水将填满槽中的杯子。此外，LLM的预测模式也分为两种：预测下一步的完整状态，或者预测两个时刻之间的状态差。为了更好地理解LLM对于每种状态转移的建模能力，研究人员进一步将模拟器函数F分解为三种类型：评估结果建模了LLM的决策过程后，作者也同样用文本构建了一个虚拟人物场景。Bytesized32-SP基准测试的数据来源于公开的Bytesized32语料库，其中有32个人类编写的文字游戏。留出一个游戏作为gold label后，测试集总共涉及31个游戏场景，7.6万多个状态转换。LLM根据上下文和前一个状态进行单步预测，给出下一步时的物体属性、任务进展等信息。规则方面，研究人员也提出了三种设定：由游戏作者撰写、由LLM自动生成，或者根本不提供规则。设定好虚拟环境和任务规则后，作者运行GPT-4进行预测得到了如下结果。为了严谨起见，作者根据状态转移前后预测结果是否变化，分成static和dynamic两类分开统计。如果前后两个状态中，结果并没有发生变化，LLM也会更容易预测。不出意料，static一栏的准确率基本都高于dynamic。对于“静态”转移，模型在预测状态差时表现更好。“动态转移”则相反，在完整状态预测中得分更高。作者猜测，这可能是由于预测状态差时需要减少潜在的格式错误，这会为任务输出带来额外的复杂性。还可以看到，预测动作驱动的状态转移的准确率往往高于环境驱动类。在dynamic栏，前者预测最高分有77.1，而后者最高只有49.7。此外，游戏规则如何制定会很大程度上影响LLM的表现。如果不提供游戏规则，LLM预测的性能会有明显的大幅下降，但规则由人类制定或LLM自动生成并不会显著影响准确率。相比之下，规则制定对游戏进度预测的影响更加明显。相比人类规则，LLM生成规则时，GPT-4的预测有超过10个百分点的提升。难道真的是LLM之间更能相互理解？以上结果都只是针对LLM在不同设定下的性能比较。和人类预测相比，结果如何呢？为此，4位论文作者亲自上阵和GPT-4一较高下。不知道李世石看到这个结果会不会有所安慰。人类的总体准确率在80%左右，远高于GPT-4在50%附近徘徊的成绩，这显示了规划能力上的重大差距。对于规划任务中的单步预测模型，每一步的模拟误差都会累积并向后传播，单步的低性能会很大程度上影响全局表现。因此LLM较低的准确率说明了，它并不能成为可靠的“文本世界模拟器”。此外，人类准确率的波动幅度基本不大，说明任务设定比较简单、直接，适合人类的思维模式。GPT-4这种较差的性能表现给我们提供了一个宝贵的机会，可以更具体地剖析LLM究竟在哪方面出现了能力缺陷。因此，论文作者将LLM的预测结果拆开仔细分析，发现在二元布尔值属性上（is开头的属性），模型通常可以做得很好。预测表现比较糟糕的，通常是一些非平凡属性，比如需要算术运算的temprature（温度）、需要常识的current_aperture（当前照相机光圈），或者需要科学知识的on（灯泡是否打开）。相比之前的基准测试，这似乎更准确地暴露了LLM在常识和科学推理方面的缺陷。此外，这也能反映出模型一些行为的“偏执”之处。在进行完整预测时，它通常过于关注动作驱动的状态转移而忽略了环境驱动，出现了很多“未改变值”的错误。但是可以在分开预测的结果中看到，这些错误是本可以避免的。作者提出，这篇文章的局限性之一是只使用了GPT模型进行测试，也许其他模型可以有不同的表现。这项研究的意义更在于基准测试的提出，为探索LLM在“世界模拟器”方面的潜力提供了一套可行的问题形式定义和测试流程。参考资料：... PC版：手机版：

：关于在软件测试中使用大型语言模型 (LLM) 的论文和资源的集合。

：关于在软件测试中使用大型语言模型 (LLM) 的论文和资源的集合。 LLM已成为自然语言处理和人工智能领域的突破性技术。这些模型能够执行各种与编码相关的任务，包括代码生成和代码推荐。因此，在软件测试中使用LLM预计会产生显着的改进。一方面，软件测试涉及诸如单元测试生成之类的任务，这些任务需要代码理解和生成。另一方面，LLM可以生成多样化的测试输入，以确保全面覆盖正在测试的软件。此存储库对LLM在软件测试中的运用进行了全面回顾，收集了 102 篇相关论文，并从软件测试和法学硕士的角度进行了全面的分析。

Line日本总部本周宣布开源自家开发的日语大型语言模型（LLM）。

Line日本总部本周宣布开源自家开发的日语大型语言模型（LLM）。，可用于研究和商业用途，包含和个参数两个版本，均可在 HuggingFace Hub 上获取。，Line 一直专注于大型语言模型 HyperCLOVA，在 2021 年 5 月，Line 首次公开了基于 2040 亿个参数训练的韩文版 LLM HyperCLOVA，然后在 11 月公布了拥有 850 亿个参数的日语专用版本。此次公开的模型与 HyperCLOVA 是不同部门并行开发的。此次开源的模型团队指出，此模型是基于 Line 自家的日语大型 Web 文本进行训练的，使用了 650GB 数据集进行训练。研究团队还提供了本次公开的两个模型与 Rinna-3.6B 和 OpenCALM-7B 模型的准确度和困惑度（perplexity score，PPL）比较数据。

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型理化学研究所的超级计算机 Fugaku为了在 Fugaku 上训练大型语言模型，研究人员开发了分布式训练方法，包括将深度学习框架 Megatron-DeepSpeed 移植到 Fugaku，以优化变形金刚在 Fugaku 上的性能。他们加速了 Transformers 的密集矩阵乘法库，并通过结合三种并行化技术优化了 Fugaku 的通信性能，还加速了 Tofu 互联 D 上的集体通信库。Fugaku-LLM 有 130 亿个参数，比日本广泛开发的 70 亿个参数模型更大。Fugaku-LLM 增强了日语能力，在日语 MT-Bench 中平均得分 5.5，是使用日本原始数据训练的开放模型中最高的。特别是人文和社会科学任务的基准性能达到了 9.18 分的惊人高分。Fugaku-LLM 是在 CyberAgent 收集的日语专有数据、英语数据和其他数据的基础上进行训练的。Fugaku-LLM 的源代码可在 GitHub 上获取，模型可在 Hugging Face 上获取。只要用户遵守许可证，Fugaku-LLM 可用于研究和商业目的。未来，随着更多研究人员和工程师参与改进模型及其应用，训练效率将得到提高，从而实现下一代创新研究和商业应用，例如科学模拟与生成式人工智能的联动，以及拥有成千上万人工智能的虚拟社区的社会模拟。研究背景近年来，大型语言模型（LLM）的发展十分活跃，尤其是在美国。其中，由 OpenAI 开发的 ChatGPT(6) 的迅速普及，对研发、经济体系和国家安全产生了深远影响。除美国外，其他国家也在本国投入大量人力和计算资源开发 LLM。日本也需要确保用于人工智能研究的计算资源，以免在这场全球竞赛中落后。人们对日本的旗舰超级计算机系统"Fugaku"寄予厚望，因此有必要改善在"Fugaku"上进行大规模分布式培训的计算环境，以满足这些期望。因此，东京工业大学、东北大学、富士通公司、理化学研究所、名古屋大学、CyberAgent 和 Kotoba Technologies 启动了一项关于开发大型语言模型的联合研究项目。各机构/公司的作用东京工业大学：大型语言模型的总体监督、并行化和通信加速（通过三种并行化组合优化通信性能，加速 Tofu 互联 D 上的集体通信）东北大学收集训练数据和选择模型富士通加速计算和通信（加速 Tofu 互联 D 上的集体通信、优化流水线并行化的性能）以及实施预训练和训练后微调理化学研究所：大规模语言模型的分布式并行化和通信加速（Tofu 互联 D 上的集体通信加速）名古屋大学研究 Fugaku-LLM 在 3D 生成式人工智能中的应用方法CyberAgent：提供训练数据Kotoba Technologies：将深度学习框架移植到 Fugaku未来发展这项研究的成果将通过 GitHub 和 Hugging Face 公开，以便其他研究人员和工程师可以利用这些成果进一步开发大型语言模型。只要用户遵守许可协议，Fugaku-LLM 可用于研究和商业目的。从 2024 年 5 月 10 日起，Fugaku-LLM 还将通过富士通研究门户网站提供给用户。未来，随着越来越多的研究人员和工程师参与到模型及其应用的改进中来，训练的效率将得到提高，从而实现下一代创新研究和商业应用，例如科学模拟与生成式人工智能的联系，以及拥有成千上万人工智能的虚拟社区的社会模拟。本研究得到了 Fugaku 政策支持提案"利用 Fugaku 开发大型语言模型的分布式并行训练"（提案号：hp230254）的支持。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人