【心智理论可能在大语言模型中自发出现】研究作者Michal Kosinski发现,ChatGPT的同源模型、GPT3.5(dav

【心智理论可能在大语言模型中自发出现】研究作者Michal Kosinski发现,ChatGPT的同源模型、GPT3.5(davinci-003)可以解决93%的心智理论任务,心智相当于9岁儿童。而2022年之前的GPT系列模型身上,还没有发现解决这类任务的能力。但也有人认为,AI只是学得像是有心智了。 #抽屉IT

相关推荐

封面图片

ChatGPT Mirror-基于 gpt-3.5-turbo 模型的 ChatGPT 镜像

ChatGPT Mirror-基于 gpt-3.5-turbo 模型的 ChatGPT 镜像 #GitHub项目 #趣站 #ChatGPT https://www.ahhhhfs.com/39726/

封面图片

GPT-4、Llama 2比人类更懂“人类心理”?最新研究登上Nature子刊

GPT-4、Llama 2比人类更懂“人类心理”?最新研究登上Nature子刊 这些发现不仅表明大型语言模型(LLMs)展示出了与人类心理推理输出一致的行为,而且还突出了系统测试的重要性,从而确保在人类智能和人工智能之间进行非表面的比较。相关研究论文以“Testing theory of mind in large language models and humans”为题,已发表在 Nature 子刊 Nature Human Behaviour 上。GPT 更懂“误导”,Llama 2 更懂“礼貌”心智理论,是一个心理学术语,是一种能够理解自己以及周围人类的心理状态的能力,这些心理状态包括情绪、信仰、意图、欲望、假装等,自闭症通常被认为是患者缺乏这一能力所导致的。以往,心智理论这一能力被认为是人类特有的。但除了人类之外,包括多种灵长类动物,如黑猩猩,以及大象、海豚、马、猫、狗等,都被认为可能具备简单的心智理论能力,目前仍有争议。最近,诸如 ChatGPT 这样的大型语言模型(LLMs)的快速发展引发了一场激烈的争论,即这些模型在心智理论任务中表现出的行为是否与人类行为一致。在这项工作中,来自德国汉堡-埃彭多夫大学医学中心的研究团队及其合作者,反复测试了两个系列的 LLMs(GPT 和 Llama 2)的不同心智理论能力,并将它们的表现与 1907 名人类参与者进行比较。他们发现,GPT 模型在识别间接要求、错误想法和误导三方面的表现,可以达到甚至超越人类的平均水平,而 Llama 2 的表现还不如人类。图|人类(紫色)、GPT-4(深蓝色)、GPT-3.5(浅蓝色)和 LLaMA2-70B(绿色)在心智理论测试中的表现。在识别失礼方面,Llama 2 要强于人类,但 GPT 表现不佳。研究团队认为,Llama 2 表现好是因为回答的偏见程度较低,而不是因为真的对失礼敏感,GPT 表现较差其实是因为对坚持结论的超保守态度,而不是因为推理错误。AI 的心智理论已达人类水平?在论文的讨论部分,研究团队对 GPT 模型在识别不当言论任务中的表现进行了深入分析,实验结果支持了 GPT 模型在识别不当言论方面存在过度保守的假设,而不是推理能力差。当问题以可能性的形式提出时,GPT 模型能够正确识别并选择最可能的解释。同时,他们也通过后续实验揭示了 LLaMA2-70B 的优越性可能是由于其对无知的偏见,而不是真正的推理能力。此外,他们还指出了未来研究的方向,包括进一步探索 GPT 模型在实时人机交互中的表现,以及这些模型的决策行为如何影响人类的社会认知。他们提醒道,尽管 LLM 在心智理论任务上的表现堪比人类,但并不意味着它们具有人类般的能力,也代表它们能掌握心智理论。尽管如此,他们也表示,这些结果是未来研究的重要基础,并建议进一步研究 LLM 在心理推断上的表现会如何影响个体在人机交互中的认知。 ... PC版: 手机版:

封面图片

GitHub19k星项目:无需注册,免费使用GPT4,GPT3.5,Claude等AI模型。ForeFront还支持不同的助手,

GitHub19k星项目:无需注册,免费使用GPT4,GPT3.5,Claude等AI模型。ForeFront还支持不同的助手,比如毕加索,托尼斯塔克,爱因斯坦等等 目前OpenAI已经发了警告邮件要求开发者撤下此系统,否则开发者将面临法律诉讼。

封面图片

LLaV:一个拥有类似 GPT-4 的大语言+视觉模型

LLaV:一个拥有类似 GPT-4 的大语言+视觉模型 “使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调优提高了新任务的零样本能力,但这一想法在多模式领域的探索较少。 所以,我们开始尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,并推出了 LLaVA:大型语言和视觉助手。 这是一种端到端训练的大型多模态模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解。 早期实验表明,LLaVA 展示了令人印象深刻的多模型聊天能力,有时在看不见的图像 / 指令上表现出多模态 GPT-4 的行为,并且与合成多模态指令跟随数据集上的 GPT-4 相比,相对分数达到了 85.1%。 当在 Science QA 上进行微调时,LLaVA 和 GPT-4 的协同作用达到了 92.53%,这个准确率颇高。 因此,我们在 GitHub 正式开放 GPT-4 生成的视觉指令调整数据、模型和代码库。” |||||

封面图片

教你从零开始构建类似 ChatGPT 的大语言模型。

教你从零开始构建类似 ChatGPT 的大语言模型。 在 GitHub 上发现一本《Build a Large Language Model (From Scratch)》书籍。 作者将带你从头开始构建一个类似 GPT 语言模型,这过程让你了解如何创建、训练和微调大型语言模型 (LLMs)! 书籍主要分为 8 大章节,如下: 第 1 章:了解大语言模型(LLM)解析 第 2 章:介绍文本数据处理技巧 第 3 章:通过编程实现注意力机制(Attention Mechanisms) 第 4 章:从零开始实现类似 GPT 模型 第 5 章:对未标注数据进行预训练 第 6 章:针对文本分类的模型微调 第 7 章:结合人类反馈进行模型微调 第 8 章:在实践中使用大语言模型 书籍前两章内容已出,剩下的会逐步放出。 |

封面图片

OpenAI宣布GPT-3.5 Turbo降价 还治好了GPT-4 Turbo的"懒病"

OpenAI宣布GPT-3.5 Turbo降价 还治好了GPT-4 Turbo的"懒病" OpenAI这次更新中,特别提到了它们的GPT-4Turbo和GPT-3.5 Turbo两大模型。它们都是大型多模式模型,可以理解和生成自然语言或代码。在新版本中,它们迎来了诸多增强功能,包括更精准的指令跟随、支持JSON模式、更多可复现的输出,以及并行函数调用的优化。此外,该公司还推出了全新的16k版本GPT-3.5 Turbo,这一版本在处理超长输入和输出时,相比标准的4k版本展现出了更为出色的性能。对于众多用户而言,GPT-3.5 Turbo并不陌生。作为大多数人通过ChatGPT进行互动的背后支持模型,它几乎已经成为了行业内的金标准。面对其他聊天机器人,如果用户发现其回答质量不及ChatGPT,那么继续使用后者无疑成为了最佳选择。在API领域,GPT-3.5 Turbo同样表现不俗。在执行各类任务时,它不仅能够提供比GPT-4更低的成本,还能保证更快的执行速度。因此,对于那些付费用户来说,此次输入价格下调50%、输出价格下调25%无疑是一大利好。具体来说,新的输入价格定格在每千个代币0.0005美元,而输出价格则为每千个代币0.0015美元。在处理文本密集型应用(如整篇论文或书籍的分析)时,这些代币的累积费用往往相当可观。而且随着开源大模型开始发力,OpenAI需要确保其客户不会离开。因此,这一价格调整无疑将为用户带来真正的实惠。当然,这也是模型精简和基础设施改进的结果。在GPT-3.5 Turbo上,OpenAI还悄然推出了代号为GPT-3.5 Turbo 0125的新模型版本。虽然该公司并未大肆宣扬,但这一版本显然包含了一系列“各种改进”。不过,相较于最新版本GPT-3.5 Turbo 0613,这一更新似乎并未带来公司认为值得特别提及的重大突破。在GPT-4 Turbo上,OpenAI同样有所动作。一个新的API使用预览模型GPT-4 Turbo 0125应运而生。这个模型成功解决了GPT-4 Turbo过去存在的一个老问题,即模型在面对某些任务时可能出现的“懒惰”情况。此外,GPT-4 Turbo 0125在代码生成等任务方面的表现也较之前的预览模型有了显著提升。目前,GPT-4 Turbo 0125仍处于预览模式阶段。不过,具有视觉效果的GPT-4 Turbo(即GPT-4 V)有望在“未来几个月内”与广大用户正式见面。在嵌入模型方面,OpenAI同样带来了令人振奋的消息。该公司推出了全新的text-embeddings-3-small和text-embeddings-3-large模型,它们相较于上一代的text-embeddings-ada-002展现出了更为强大的性能和更为亲民的价格。这些新模型能够创建多达3072维度的嵌入空间,从而捕获更多的语义信息并提高下游任务的准确性。在性能测试中,新模型将多语言检索(MIRACL)常用基准的平均分数从31.4%提升至54.9%,而在英语任务(MTEB)常用基准上的平均分数也从61.0%提升至64.6%。更值得一提的是,与text-embeddings-ada-002相比,text-embeddings-3-small的价格降到1/5,这无疑为开发人员带来了更为经济实惠的选择。此外,OpenAI还发布了一个全新版本的免费文本审核API。这一API能够检测文本是否包含敏感或不安全的内容,并且新版本还扩展了支持的语言和领域范围,同时为其预测提供了更为详尽的解释。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人