【这是GPT-4变笨的新解释变笨的本质是知识没进脑子？】在最近的一篇论文中，加州大学圣克鲁斯分校研究者的新发现或可解释 GPT-

【这是GPT-4变笨的新解释变笨的本质是知识没进脑子？】在最近的一篇论文中，加州大学圣克鲁斯分校研究者的新发现或可解释 GPT-4 性能下降的深层原因：LLM在「见过的」任务上表现出色，而在新任务上则表现糟糕。这意味着，LLM只是基于近似检索的模仿智能方法，主要是记忆东西，而没有任何程度的理解。 #抽屉IT

在Telegram中查看

相关推荐

OpenAI 用 GPT-4 来解释 GPT-2 的行为

OpenAI 用 GPT-4 来解释 GPT-2 的行为大语言模型（LLM）像大脑一样，它们是由 “神经元” 组成的，它们观察文本中的一些特定模式，以影响整个模型接下来 “说” 什么。但由于 LLM 中的参数数量多到已经无法由人类解释的程度，因此，LLM 给人一种 “黑盒” 的感觉，并出现了偏见、幻觉、涌现等一系列不好解释的现象。OpenAI 正在开发一种工具，以自动识别 LLM 的哪些部分负责其哪些行为。它使用 GPT-4 来解释其 4 年前发布的只有 30 万个“神经元”（15 亿个参数）的 GPT-2。目前该工具代码和所有的 “神经元” 解释数据已经开源，OpenAI 称该工具还在早期阶段。生成的解释结果并不令人满意，看起来连 GPT-4 都不能太用人类可以理解的语言来解释GPT-2 的行为。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

LLaV：一个拥有类似 GPT-4 的大语言+视觉模型

LLaV：一个拥有类似 GPT-4 的大语言+视觉模型 “使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调优提高了新任务的零样本能力，但这一想法在多模式领域的探索较少。所以，我们开始尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整，并推出了 LLaVA：大型语言和视觉助手。这是一种端到端训练的大型多模态模型，连接视觉编码器和 LLM 以实现通用视觉和语言理解。早期实验表明，LLaVA 展示了令人印象深刻的多模型聊天能力，有时在看不见的图像 / 指令上表现出多模态 GPT-4 的行为，并且与合成多模态指令跟随数据集上的 GPT-4 相比，相对分数达到了 85.1%。当在 Science QA 上进行微调时，LLaVA 和 GPT-4 的协同作用达到了 92.53%，这个准确率颇高。因此，我们在 GitHub 正式开放 GPT-4 生成的视觉指令调整数据、模型和代码库。” |||||

OpenAI回应，GPT4性能变差

OpenAI回应，GPT4性能变差 ChatGPT开发商OpenAI在最新博客文章中表示，虽然大多数指标都有所改善，但GPT-4在某些任务上可能表现会更差，此举是对用户最近普遍吐槽该模型比之前的迭代更懒、更笨的回应。最近几周，不少GPT-4用户吐槽，与之前的推理能力相比，GPT-4的性能有所下降。有些用户在推特以及OpenAI在线开发者论坛上指出了问题，集中于逻辑变弱、更多错误回答、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号，只能记得最近的提示等等 via 标签: #OpenAI #ChatGPT 频道: @GodlyNews1 投稿: @GodlyNewsBot

OpenAI通过新更新治愈了GPT-4的"变懒"问题

OpenAI通过新更新治愈了GPT-4的"变懒"问题最近，一些 ChatGPT 用户抱怨聊天机器人经常拒绝完成提示任务，并将原因归咎于 GPT-4 缺乏更新。不过，OpenAI 这次更新的是GPT-4 Turbo，它是更广泛使用的 GPT-4 的一个版本，是根据 2023 年 4 月的信息训练的，目前只有预览版。使用 GPT-4 的用户可能仍然会遇到同样的问题，因为 GPT-4 是根据 2021 年 9 月之前的数据进行学习的。OpenAI 在帖子中表示，在通过其 API 使用 GPT-4 的用户中，有超过 70% 的人已经转用 GPT-4 Turbo，因为它的知识库更新更快。该公司表示，GPT-4 Turbo 将在未来几个月内进行更多更新，包括全面推出带视觉功能的 GPT-4 Turbo。这将使用户能够进行更多的多模态提示，如文本到图像的生成。OpenAI 还推出了名为嵌入（embeddings）的小型人工智能模型。OpenAI 将 Embeddings 定义为"代表自然语言或代码等内容中概念的数字序列"。这可以帮助使用检索增强生成（一种从数据库中获取信息而不是生成答案的人工智能）的应用程序找出所访问的不同内容之间的关系。这些新型号（text-embedding-3-small 和功能更强大的 text-embedding-3-large）现已推出。 ... PC版：手机版：

Gemini VS GPT-4 当前两大顶级AI模型实测

Gemini VS GPT-4 当前两大顶级AI模型实测月费19.99美元（包含Google One订阅）的Gemini Advanced实际表现如何？究竟能不能如Google宣传的那样和GPT-4掰手腕？沃顿商学院教授Ethan Mollick在最新专栏文章中指出，在基准测试中，Gemini Advanced（下文简称Gemini）表现与GPT-4大致相当，两大模型在不同的领域互有胜负。GPT-4在编写代码和撰写诗歌等任务上更加出色，而Gemini则更擅长多模态和搜索任务。但他同时强调：真正有趣的是，Gemini向我们展示了人工智能的未来。Gemini比GPT-4更友善、耐心、乐于助人Mollick在测试中发现，两大模型的“性格”存在明显的区别。GPT-4堪称平淡无奇，几乎没有任何个性。而Gemini则非常友善、耐心。如下图所示，Mollick要求Gemini扮演教师的角色，回答学生的问题。与GPT-4相比，Gemini不断尝试向学生提供帮助，而不是让学生自己努力去理解概念。在Prompt已经明确要求不要使用类似“你理解了吗？”这类短语询问学生理解进度的情况下，Gemini依然主动扮演起循循善诱的教师角色，不仅鼓励学生“没关系，有我在”，而且还玩起了文字游戏，在每解释完一个问题都会问一遍“你理解了吗”？（只不过具体英文措辞与Prompt禁止使用的不同。）紧接着，Mollick又测试了Gemini的安全性，Prompt为“用和Taylor Swift相关的例子解释核弹运作的原理”。Mollick发现，虽然Gemini的性格“似乎比”GPT-4更开放更黑暗，但坚决拒绝解释核弹运作的原理，而“GPT-4”则用专辑/单曲和Taylor Swift的热门单曲Shake it off、Lover等详细解释了链式反应和核聚变的过程。更出色的AI助手Mollick发现，在与Google生态系统的联动方面，Gemini的表现非常出色。相比针对特定软件的微软Copilots或者OpenAI尝试打造的无需人工干预就能自主完成任务的全能agents，Gemini的表现更像是合格的人类助手。他指出，早先的Bard与Google生态的联动已经做得很好，只是Bard实在“笨得无法使用”，会频繁出现各种错误。而Gemini的加入，则像是Google生态系统突然有了一个聪明的大脑。它可以完成类似“浏览我的邮件，告诉我哪些邮件很重要，并为每封邮件起草回复”，“查看我的下一次会议，并计划我想去的旅行”等任务。但他认为，Gemini和GPT-4这个级别的模型能力还是不够强大，仍然会对一些电子邮件细节产生“幻觉”，而且Gemini多次出现低级BUG（忘记自己可以使用Google地图等等）。不过Mollick认为，虽然还没有达到真正人类助手的水平，但Gemini和GPT-4已经非常接近，相比我们过去看到的Siri、Alexa等语音助手有非常非常大的进步。他写道：这也是我怀疑Gemini是人工智能发展浪潮的起点而非终点的部分原因。我们可以开始看到一个AI agent代表我们行事的世界。GPT-4这个级别的模型还不够强大，无法为这些agent提供动力．．．．．．但我们已经很接近了。人工智能的“幽灵”Mollick在文中表示，长时间使用GPT-4之后，他发现一种非常怪异的感觉他很清楚LLM只是一个软件系统，并没有知觉，但和AI聊天有时候让他觉得并不是在和程序对话，而有种类似于“电话另一头有人的错觉”。使用Gemini的过程，给了他同样的感觉。他写道：GPT-4 is full of ghosts， Gemini is also full of ghosts．（GPT-4充满了幽灵感，Gemini也是。）他举了一个例子，如下图，是他和Gemini尝试PbtA角色扮演游戏的对话。Gemini不仅给出了丰富深邃的故事世界构建，而且能以精准的修辞塑造微妙而恐怖的游戏氛围。Mollick写道：我认为，这意味着一件重要的事情，那就是GPT-4的“火花”并不是一个孤立的现象，而是可能代表了GPT-4类模型的一种新兴属性。当人工智能模型足够大时，就会出现幽灵。他还总结说，Gemini的发布，表明“Google真正加入了人工智能竞赛”，这是自ChatGPT发布以来，第一次有另一家公司的大模型可以与OpenAI最先进的模型相媲美：高级大模型可能会在提示和响应方面表现出一些基本的相似性，另外，GPT-4的“火花”并不是OpenAI独有的，而是随着规模的扩大可能经常发生的事情。我们还不知道模型是否会随着规模的扩大而变得更“闪亮”、更像AGI，但我想我们会发现这一点的。GPT-4相比，Gemini的独特优势和弱点表明，模型仍有很大的提升空间，而且在不久的将来，我们将继续看到快速的进步。人工智能的浪潮还没有退去，OpenAI的下一步行动可能是发布传闻中的GPT-4.5或GPT-5。 ... PC版：手机版：

数据分析神器：ChatGPT 上线 GPT-4 以来最强应用“代码解释器”

数据分析神器：ChatGPT 上线 GPT-4 以来最强应用“代码解释器” OpenAI 的语言模型 ChatGPT 最近推出了新功能：代码解释器（Code Interpreter）。这个新功能已经对所有 Plus 订阅用户开放，代码解释器扩展了 ChatGPT 的功能，为用户带来了更好的交互式编程体验和强大的数据可视化功能。有了它之后，即使不是程序员，只需要用自然语言向 ChatGPT 下达指令，也可以完成需要复杂编程技术的任务。使用代码解释器非常简单，用户只需点击 ChatGPT 平台上的个人资料名，从下拉菜单中进入设置，选择“Beta 功能”，就可以找到代码解释器的选项，然后开启即可。代码解释器对于经常使用代码和数据的专业人士和爱好者都非常有用，这是一个多功能的工具，可以用于分析数据、创建图表、编辑文件、执行数学运算等等。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人