GPT-4、Llama 2比人类更懂“人类心理”？最新研究登上Nature子刊

GPT-4、Llama 2比人类更懂“人类心理”？最新研究登上Nature子刊这些发现不仅表明大型语言模型（LLMs）展示出了与人类心理推理输出一致的行为，而且还突出了系统测试的重要性，从而确保在人类智能和人工智能之间进行非表面的比较。相关研究论文以“Testing theory of mind in large language models and humans”为题，已发表在 Nature 子刊 Nature Human Behaviour 上。GPT 更懂“误导”，Llama 2 更懂“礼貌”心智理论，是一个心理学术语，是一种能够理解自己以及周围人类的心理状态的能力，这些心理状态包括情绪、信仰、意图、欲望、假装等，自闭症通常被认为是患者缺乏这一能力所导致的。以往，心智理论这一能力被认为是人类特有的。但除了人类之外，包括多种灵长类动物，如黑猩猩，以及大象、海豚、马、猫、狗等，都被认为可能具备简单的心智理论能力，目前仍有争议。最近，诸如 ChatGPT 这样的大型语言模型（LLMs）的快速发展引发了一场激烈的争论，即这些模型在心智理论任务中表现出的行为是否与人类行为一致。在这项工作中，来自德国汉堡-埃彭多夫大学医学中心的研究团队及其合作者，反复测试了两个系列的 LLMs（GPT 和 Llama 2）的不同心智理论能力，并将它们的表现与 1907 名人类参与者进行比较。他们发现，GPT 模型在识别间接要求、错误想法和误导三方面的表现，可以达到甚至超越人类的平均水平，而 Llama 2 的表现还不如人类。图｜人类（紫色）、GPT-4（深蓝色）、GPT-3.5（浅蓝色）和 LLaMA2-70B（绿色）在心智理论测试中的表现。在识别失礼方面，Llama 2 要强于人类，但 GPT 表现不佳。研究团队认为，Llama 2 表现好是因为回答的偏见程度较低，而不是因为真的对失礼敏感，GPT 表现较差其实是因为对坚持结论的超保守态度，而不是因为推理错误。AI 的心智理论已达人类水平？在论文的讨论部分，研究团队对 GPT 模型在识别不当言论任务中的表现进行了深入分析，实验结果支持了 GPT 模型在识别不当言论方面存在过度保守的假设，而不是推理能力差。当问题以可能性的形式提出时，GPT 模型能够正确识别并选择最可能的解释。同时，他们也通过后续实验揭示了 LLaMA2-70B 的优越性可能是由于其对无知的偏见，而不是真正的推理能力。此外，他们还指出了未来研究的方向，包括进一步探索 GPT 模型在实时人机交互中的表现，以及这些模型的决策行为如何影响人类的社会认知。他们提醒道，尽管 LLM 在心智理论任务上的表现堪比人类，但并不意味着它们具有人类般的能力，也代表它们能掌握心智理论。尽管如此，他们也表示，这些结果是未来研究的重要基础，并建议进一步研究 LLM 在心理推断上的表现会如何影响个体在人机交互中的认知。 ... PC版：手机版：

在Telegram中查看

相关推荐

AI可能比你更会炒股？最新研究：GPT-4比人类更擅长金融分析和预测

AI可能比你更会炒股？最新研究：GPT-4比人类更擅长金融分析和预测这一发现可能会颠覆金融服务业。与其他商业部门一样，金融服务业正在竞相采用生成式人工智能技术。根据这项最新研究的研究，在分析财务报表以及根据这些报表做出预测等方面，大语言模型比人类做得更好。“即使没有任何叙述或行业特定信息，大语言模型在预测盈利变化方面的能力也优于金融分析师们，”该研究称，“在分析师遇到难题时，大语言模型比人类分析师表现出相对优势。”该研究利用“思维链（chain-of-thought）”提示，指导GPT-4识别财务报表的趋势并计算不同的财务比率。在此基础上，大语言模型可以分析信息并预测未来的收益结果。该研究称：当我们使用思维链提示来模拟人类推理时，我们发现GPT的预测准确率达到了60%，明显高于分析师的准确率。人类分析师在预测准确度方面接近50%的范围。该研究的作者还表示，大语言模型能够在信息不完整的情况下识别财务模式和商业概念，这表明该技术应该在未来的财务决策中发挥关键作用。最后，该研究发现，如果将GPT-4的金融敏锐性应用于交易策略，能够获得更多交易回报，通常能跑赢大盘。研究称：“我们发现，基于GPT预测的多空策略表现优于市场，并产生显著的阿尔法和夏普比率（对资产的风险和收益进行综合考量的指标）。” ... PC版：手机版：

【心智理论可能在大语言模型中自发出现】研究作者Michal Kosinski发现，ChatGPT的同源模型、GPT3.5（dav

【心智理论可能在大语言模型中自发出现】研究作者Michal Kosinski发现，ChatGPT的同源模型、GPT3.5（davinci-003）可以解决93%的心智理论任务，心智相当于9岁儿童。而2022年之前的GPT系列模型身上，还没有发现解决这类任务的能力。但也有人认为，AI只是学得像是有心智了。 #抽屉IT

研究发现GPT-4比人类分析师表现出相对优势有可能为投资带来更多收益

研究发现GPT-4比人类分析师表现出相对优势有可能为投资带来更多收益此外，研究人员还发现，通用 LLM 的表现与为阅读财务报表而训练的最先进的狭义机器学习模型一样出色。他们还发现，LLM 能够做出产生更高夏普比率的预测，夏普比率是将投资收益与风险进行比较，夏普比率越高越好。鉴于这些结果，研究人员发现，在选择投资时，LLM 可能会在决策中发挥核心作用。有趣的是，GPT-4 仅凭财务报表就能超越人类投资者，而人类投资者却不了解任何背景情况。研究人员还表示，LLM 的预测并非来自其训练记忆，而是"对公司未来业绩产生有用的叙述性见解"。对于那些认为这项工作听起来很有趣的投资者，研究人员创建了一个ChatGPT 机器人，供ChatGPT Plus订阅者使用，这样他们就可以提交财务报表并获得分析结果。对于有兴趣免费分析财务报表的人来说，Claude 3 还允许用户上传文件，并就数据提出问题。虽然研究人员可能会怀疑LLM是否能取代人类投资者，但这些工具的出现带来的另一个质变是，可能不了解财务文件来龙去脉的业余投资者可以以更简单并更全面的方式了解不同公司的情况。 ... PC版：手机版：

最强开源大模型深夜炸场：Llama 3 王者归来表现直逼 GPT-4

最强开源大模型深夜炸场：Llama 3 王者归来表现直逼 GPT-4 Llama 3 70B: 第一档 AI 模型，媲美 Gemini 1.5 Pro、全面超越 Claude 大杯以上还只是 Meta 的开胃小菜，真正的大餐还在后头。在未来几个月，Meta 将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新模型。其中，超 400B 的重量级选手更是有望与 Claude 3 超大杯“掰手腕”。又一 GPT-4 级模型来了，Llama 3 开卷与前代 Llama 2 模型相比，Llama 3 可谓是迈上了一个新的台阶。得益于预训练和后训练的改进，本次发布的预训练和指令微调模型是当今 8B 和 70B 参数规模中的最强大的模型。同时后训练流程的优化显著降低了模型的出错率，增强了模型的一致性，并丰富了响应的多样性。扎克伯格曾在一次公开发言中透露，考虑到用户不会在 WhatsApp 中向 Meta AI 询问编码相关的问题，因此 Llama 2 在这一领域的优化并不突出。而这一次，Llama 3 在推理、代码生成和遵循指令等方面的能力取得了突破性的提升，使其更加灵活和易于使用。基准测试结果显示，Llama 3 8B 在 MMLU、GPQA、HumanEval 等测试的得分远超 Google Gemma 7B 以及 Mistral 7B Instruct。用扎克伯格的话来说，最小的 Llama 3 基本上与最大的 Llama 2 一样强大。Llama 3 70B 则跻身于顶尖 AI 模型的行列，整体表现全面碾压 Claude 3 大杯，与 Gemini 1.5 Pro 相比则是互有胜负。为了准确研究基准测试下的模型性能，Meta 还特意开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示，涵盖 12 个关键用例：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。出于避免 Llama 3 在此评估集上出现过度拟合，Meta 甚至禁止他们的研究团队访问该数据集。在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的逐一较量中，Meta Llama 70B 都以“压倒性胜利”结束了比赛。据 Meta 官方介绍，Llama 3 在模型架构上选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比，Llama 3 进行了几项关键的改进：使用具有 128K token 词汇表的 tokenizer，可以更有效地编码语言，从而显著提升模型性能在 8B 和 70B 模型中都采用分组查询注意力（GQA），以提高 Llama 3 模型的推理效率在 8192 个 token 的序列上训练模型，使用掩码来确保自注意力不会跨越文档边界。训练数据的数量和质量是推动下一阶段大模型能力涌现的关键因素。从一开始，Meta Llama 3 就致力于成为最强大的模型。Meta 在预训练数据上投入了大量的资金。据悉，Llama 3 使用从公开来源收集的超过 15T 的 token，是 Llama 2 使用数据集的七倍，其中包含的代码数据则是 Llama 2 的四倍。考虑到多语言的实际应用，超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成，不过，Meta 官方也坦言，与英语相比，这些语言的性能表现预计是稍逊一筹。为了确保 Llama 3 接受最高质量的数据训练，Meta 研究团队甚至提前使用启发式过滤器、NSFW 筛选器、语义重复数据删除方法和文本分类器来预测数据质量。值得注意的是，研究团队还发现前几代 Llama 模型在识别高质量数据方面出奇地好，于是让 Llama 2 为 Llama 3 提供支持的文本质量分类器生成训练数据，真正实现了“AI 训练 AI”。除了训练的质量，Llama 3 在训练效率方面也取得了质的飞跃。Meta 透露，为了训练最大的 Llama 3 模型，他们结合了数据并行化、模型并行化和管道并行化三种类型的并行化。在 16K GPU 上同时进行训练时，每个 GPU 可实现超过 400 TFLOPS 的计算利用率。研究团队在两个定制的 24K GPU 集群上执行了训练运行。为了最大限度地延长 GPU 的正常运行时间，研究团队开发了一种先进的新训练堆栈，可以自动执行错误检测、处理和维护。此外，Meta 还极大地改进了硬件可靠性和静默数据损坏检测机制，并且开发了新的可扩展存储系统，以减少检查点和回滚的开销。这些改进使得总体有效训练时间超过 95%，也让 Llama 3 的训练效率比前代足足提高了约 3 倍。开源 VS 闭源作为 Meta 的“亲儿子”，Llama 3 也顺理成章地被优先整合到 AI 聊天机器人 Meta AI 之中。追溯至去年的 Meta Connect 2023 大会，扎克伯格在会上正式宣布推出 Meta AI，随后便迅速将其推广至美国、澳大利亚、加拿大、新加坡、南非等地区。在此前的采访中，扎克伯格对搭载 Llama 3 的 Meta AI 更是充满信心，称其将会是人们可以免费使用的最智能的 AI 助手。我认为这将从一个类似聊天机器人的形式转变为你只需提出一个问题，它就能给出答案的形式，你可以给它更复杂的任务，它会去完成这些任务。当然，Meta AI 若是“ 尚未在您所在的国家/地区推出”，你可以采用开源模型最朴素的使用渠道全球最大的 AI 开源社区网站 Hugging Face。Perplexity、Poe 等平台也迅速宣布将 Llama 3 集成到平台服务上。你还可以通过调用开源模型平台 Replicate API 接口来体验 Llama 3，其使用的价格也已经曝光，不妨按需使用。有趣的是，在 Meta 官宣 Llama 3 前，有眼尖的网友发现微软的 Azure 市场偷跑 Llama 3 8B Instruct 版本，但随着消息的进一步扩散，当蜂拥而至的网友再次尝试访问该链接时，得到的只有“404”的页面。Llama 3 的到来，正在社交平台 X 上掀起一股新的讨论风暴。Meta AI 首席科学家、图灵奖得主 Yann LeCun 不仅为 Llama 3 的发布摇旗呐喊，并再次预告未来几个月将推出更多版本。就连马斯克也现身于该评论区，用一句简洁而含蓄的“Not bad 不错”，表达了对 Llama 3 的认可和期待。英伟达高级科学家 JIm Fan 则将注意力投向了即将推出的 Llama 3 400B+，在他看来，Llama 3 的推出已经脱离了技术层面的进步，更像是开源模型与顶尖闭源模型并驾齐驱的象征。从其分享的基准测试可以看出，Llama 3 400B+ 的实力几乎媲美 Claude 超大杯、以及新版 GPT-4 Turbo，虽然仍有一定的差距，但足以证明其在顶尖大模型中占有一席之地。今天恰逢斯坦福大学教授，AI 顶尖专家吴恩达的生日，Llama 3 的到来无疑是最特别的庆生方式。不得不说，如今的开源模型当真是百花齐放，百家争鸣。今年年初，手握 35 万块 GPU 的扎克伯格在接受 The Verge 的采访时描绘了 Meta 的愿景致力于打造 AGI（通用人工智能）。与不 open 的 OpenAI 形成鲜明对比，Meta 则沿着 open 的开源路线朝 AGI 的圣杯发起了冲锋。正如扎克伯格所说，坚定开源的 Meta 在这条充满挑战的征途中也并非毫无收获：我通常非常倾向于认为开源对社区和我们都有好处，因为我们会从创新中受益。在过去的一年中，整个 AI 圈都在围绕开源或闭源的路线争论不休，甚至亲自下场的马斯克也通过开源 Grok 1.0 的方式给全世界打了个样。如今这场辩论，已经超越了技术层面的优劣比较，触及了 AI 未来发展的核心方向。前不久，一些观点称开源模型将会越来越落后，如今 Llama 3 的到来，也给了这种悲观的论调一记响亮的耳光。然而，尽管 Llama 3 为开源模型扳回一局，但这场关于开源与闭源的辩论还远未结束。毕竟暗中蓄势待发的 GPT-4.5/5 也许会在今年夏天，以无可匹敌的性能为这场旷日持久的争论画上一个句号。 ... PC版：手机版：

OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型，防止 AI 毁灭人类

OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型，防止 AI 毁灭人类 Ilya 领衔的 OpenAI 对齐团队，发表了用类似 GPT-2 监督 GPT-4 的方法，或可帮人类搞定自己更聪明的超级 AI！团队声称，已经发现了对超人类模型进行实证对齐的新研究方向。未来超级 AI 系统对齐的一个核心挑战人类需要监督比自己更聪明人工智能系统。来源，频道：@kejiqu 群组：@kejiquchat

让GPT-4帮人类训练GPT-4！OpenAI推出新模型CriticGPT

让GPT-4帮人类训练GPT-4！OpenAI推出新模型CriticGPT 美东时间6月27日周四，OpenAI公布，其研究人员训练了一个基于 GPT-4 的模型，它被称为 CriticGPT，用于捕捉ChatGPT 代码输出中的错误。简单来说就是，CriticGPT让人能用 GPT-4 查找 GPT-4 的错误。它可以写出使用者对ChatGPT响应结果的批评评论，从而帮助人类训练者在RLHF期间发现错误。OpenAI发现，如果通过CriticGPT获得帮助审查 ChatGPT编写的代码，人类训练师的审查效果比没有获得帮助的人强60%。OpenAI称，正着手将类似 CriticGPT 的模型集成到旗下 RLHF 标记管道中，为自己的训练师提供明确的AI帮助。OpenAI称，因为没有更好的工具，所以人们目前难以评估高级的AI系统的表现。而CriticGPT意味着，OpenAI向能够评估高级AI系统输出的目标迈进了一步。，OpenAI举了一个例子，如下图所示，对ChatGPT提出一个用 Python 编写指定函数的任务，对于ChatGPT根据要求提供的代码，CriticGPT点评了其中一条指令，提议换成效果更好的。OpenAI称，CriticGPT 的建议并不是全都正确无误，但OpenAI的人员发现，相比没有这种AI的帮助，有了它，训练师可以发现更多模型编写答案的问题。此外，当人们使用CriticGPT 时，这种AI模型会增强他们的技能，从而得出的批评结论比单单人类训练师做的更全面，并且比AI模型单独工作时产生的幻觉错误更少。在OpenAI的实验中，在60%以上的时间里，随机选择的训练师都更喜欢来自人类与CriticGPT 合作的批评结论，而不是来自没有CriticGPT协助的人类训练师批评。OpenAI同时提到了目前开发CriticGPT的四点局限。其中之一是，OpenAI用 ChatGPT 的简短答案训练CriticGPT，因此未来需要发掘能帮助训练师理解冗长且复杂任务的方法。第二点是，模型仍然会产生幻觉，有时训练师在看到这些幻觉后会犯下标记错误。第三点是，有时现实世界中的错误可能分散在答案的许多部分之中，OpenAI目前的工作重点是让模型指出一处的错误，未来还需要解决分散在不同位置的错误。第四点，OpenAI指出，CriticGPT 只能提供有限的帮助：如果ChatGPT面对的任务或响应极其复杂，即使是有模型帮助的专家也可能无法正确评估。最后，OpenAI表示，为了协调日益复杂的 AI 系统，人们需要更好的工具。在对 CriticGPT 的研究中，OpenAI发现，将 RLHF 应用于 GPT-4 有望帮助人类为 GPT-4 生成更好的 RLHF 数据。OpenAI计划，进一步扩大这项工作，并将其付诸实践。OpenAI在原名Twitter的社交媒体X上公布了新模型CriticGPT后，一条点赞超1万的网友评论称，自我改进已经开始了。另一条点赞上万的热截取了OpenAI的相关研究文章结论，其中提到，在智能方面，大语言模型（LLM）和LLM的批评都只会继续改进，而人类的智能不会，这条评论感叹，真是悲观。还有网友引用了漫威超级英雄电影《复仇者联盟》中灭霸的一句台词，点评OpenAI所说的用GPT-4找GPT-4的错误：“我用宝石摧毁了宝石。” ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人