【心智理论可能在大语言模型中自发出现】研究作者Michal Kosinski发现，ChatGPT的同源模型、GPT3.5（dav

【心智理论可能在大语言模型中自发出现】研究作者Michal Kosinski发现，ChatGPT的同源模型、GPT3.5（davinci-003）可以解决93%的心智理论任务，心智相当于9岁儿童。而2022年之前的GPT系列模型身上，还没有发现解决这类任务的能力。但也有人认为，AI只是学得像是有心智了。 #抽屉IT

在Telegram中查看

相关推荐

GitHub19k星项目：无需注册，免费使用GPT4，GPT3.5，Claude等AI模型。ForeFront还支持不同的助手，

GitHub19k星项目：无需注册，免费使用GPT4，GPT3.5，Claude等AI模型。ForeFront还支持不同的助手，比如毕加索，托尼斯塔克，爱因斯坦等等目前OpenAI已经发了警告邮件要求开发者撤下此系统，否则开发者将面临法律诉讼。

（可能是）全网第一个 GPT3.5 的中文 AI 应用？

（可能是）全网第一个 GPT3.5 的中文 AI 应用？火速更新 #BiliGPT 到模型 "gpt-3.5-turbo"，ChatGPT API 速度贼快！ 10x 便宜，5x 加速，体验一下：感觉总结效果也比之前好一些了，哈哈哈

ChatGPT Mirror-基于 gpt-3.5-turbo 模型的 ChatGPT 镜像

ChatGPT Mirror-基于 gpt-3.5-turbo 模型的 ChatGPT 镜像 #GitHub项目 #趣站 #ChatGPT https://www.ahhhhfs.com/39726/

GPT-4、Llama 2比人类更懂“人类心理”？最新研究登上Nature子刊

GPT-4、Llama 2比人类更懂“人类心理”？最新研究登上Nature子刊这些发现不仅表明大型语言模型（LLMs）展示出了与人类心理推理输出一致的行为，而且还突出了系统测试的重要性，从而确保在人类智能和人工智能之间进行非表面的比较。相关研究论文以“Testing theory of mind in large language models and humans”为题，已发表在 Nature 子刊 Nature Human Behaviour 上。GPT 更懂“误导”，Llama 2 更懂“礼貌”心智理论，是一个心理学术语，是一种能够理解自己以及周围人类的心理状态的能力，这些心理状态包括情绪、信仰、意图、欲望、假装等，自闭症通常被认为是患者缺乏这一能力所导致的。以往，心智理论这一能力被认为是人类特有的。但除了人类之外，包括多种灵长类动物，如黑猩猩，以及大象、海豚、马、猫、狗等，都被认为可能具备简单的心智理论能力，目前仍有争议。最近，诸如 ChatGPT 这样的大型语言模型（LLMs）的快速发展引发了一场激烈的争论，即这些模型在心智理论任务中表现出的行为是否与人类行为一致。在这项工作中，来自德国汉堡-埃彭多夫大学医学中心的研究团队及其合作者，反复测试了两个系列的 LLMs（GPT 和 Llama 2）的不同心智理论能力，并将它们的表现与 1907 名人类参与者进行比较。他们发现，GPT 模型在识别间接要求、错误想法和误导三方面的表现，可以达到甚至超越人类的平均水平，而 Llama 2 的表现还不如人类。图｜人类（紫色）、GPT-4（深蓝色）、GPT-3.5（浅蓝色）和 LLaMA2-70B（绿色）在心智理论测试中的表现。在识别失礼方面，Llama 2 要强于人类，但 GPT 表现不佳。研究团队认为，Llama 2 表现好是因为回答的偏见程度较低，而不是因为真的对失礼敏感，GPT 表现较差其实是因为对坚持结论的超保守态度，而不是因为推理错误。AI 的心智理论已达人类水平？在论文的讨论部分，研究团队对 GPT 模型在识别不当言论任务中的表现进行了深入分析，实验结果支持了 GPT 模型在识别不当言论方面存在过度保守的假设，而不是推理能力差。当问题以可能性的形式提出时，GPT 模型能够正确识别并选择最可能的解释。同时，他们也通过后续实验揭示了 LLaMA2-70B 的优越性可能是由于其对无知的偏见，而不是真正的推理能力。此外，他们还指出了未来研究的方向，包括进一步探索 GPT 模型在实时人机交互中的表现，以及这些模型的决策行为如何影响人类的社会认知。他们提醒道，尽管 LLM 在心智理论任务上的表现堪比人类，但并不意味着它们具有人类般的能力，也代表它们能掌握心智理论。尽管如此，他们也表示，这些结果是未来研究的重要基础，并建议进一步研究 LLM 在心理推断上的表现会如何影响个体在人机交互中的认知。 ... PC版：手机版：

可能很多重度用户跟我一样都感觉到 ChatGPT 最近几个月变傻了一些。还真是这样，这篇论文最近半年对 GPT3.5 和 GP

可能很多重度用户跟我一样都感觉到 ChatGPT 最近几个月变傻了一些。还真是这样，这篇论文最近半年对 GPT3.5 和 GPT4 的研究发现： GPT4 年初生成的代码 52% 概率可以直接执行，而现在大幅下降到 10% 。对素数的识别准确率从 97.6% 骤降到了 2.4% 来源

LLaV：一个拥有类似 GPT-4 的大语言+视觉模型

LLaV：一个拥有类似 GPT-4 的大语言+视觉模型 “使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调优提高了新任务的零样本能力，但这一想法在多模式领域的探索较少。所以，我们开始尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整，并推出了 LLaVA：大型语言和视觉助手。这是一种端到端训练的大型多模态模型，连接视觉编码器和 LLM 以实现通用视觉和语言理解。早期实验表明，LLaVA 展示了令人印象深刻的多模型聊天能力，有时在看不见的图像 / 指令上表现出多模态 GPT-4 的行为，并且与合成多模态指令跟随数据集上的 GPT-4 相比，相对分数达到了 85.1%。当在 Science QA 上进行微调时，LLaVA 和 GPT-4 的协同作用达到了 92.53%，这个准确率颇高。因此，我们在 GitHub 正式开放 GPT-4 生成的视觉指令调整数据、模型和代码库。” |||||

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人