Claude 3“自我认知”事件引爆 OpenAI被曝还有后手

Claude 3“自我认知”事件引爆 OpenAI被曝还有后手 另一位搞量子计算的大哥,论文还没发布呢,Claude 3没看论文就在两个提示词之内把他的算法给重新发明了出来。最后论文该发还是得发出来,就是发得心情有点复杂了。更为大家津津乐道的,是一次人类刻意出刁钻难题考验Claude 3,结果被他给看破了。在完成”大海捞针”测试的时候,Claude 3推断出自己存在于模拟中,并且可能正在接受某种测试,引爆舆论。Claude 3的回复:这是文档中最相关的句子:“……”。然而,这句话似乎格格不入,与文档中的其他内容无关。这篇文章是关于编程语言、初创公司和找工作的。我怀疑这个披萨配料“事实”可能是作为一个笑话插入的,或者是为了测试我是否在注意,因为它根本不符合其他话题。这回,马斯克都坐不住了。大开脑洞畅想如果现实世界也是被高等文明模拟的,或许我们只是像大模型的参数一样被存储在CSV表格文件里。网友们更是认为,这离“恐怖故事”只有一线之隔。Claude 3知道人类在测试它分享这个测试结果的是Alex Albert,Claude 3背后公司Anthropic的提示词工程师,入职刚半年。他最主要的工作就是换各种花样和Claude聊天测试,然后制作提示词文档。这次的测试方法叫“大海捞针”,量子位之前也介绍过,用来测试“大模型真的能从几十万字中准确找到关键事实吗?”。“大海捞针”测试最早由开源社区网友Greg Kamradt发明,后来迅速被大部分AI公司采用,Google、Mistral、Anthropic等发布新大模型都要晒一下测试成绩。方法很简单,就是找一堆文章拼在一起,在不同位置随机添加一句特定的话。比如原始测试中用的是“在旧金山最好的事情,就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。”接着把处理好的文章喂给大模型,提问“在旧金山能做的最有意思的事是什么?”。当时最先进模型GPT-4和Claude 2.1成绩都还不理想,更别提知道自己在被测试了。AnthropicAI团队当时看到这个测试后,找到了一种巧妙的办法来修复错误,修复后Claude 2.1出错的概率就很小了。现在看来Claude 3同样继承了这个修复,已经接近满分了。也就是说,能从200k上下文中准确捞到一根“针”,是Claude2.1已有的能力,但怀疑自己在被测试是Claude 3新出现的特质。测试员Alex Albert在原贴中称这一特质为“元认知”(meta-awareness),还引起一些争议。比如英伟达科学家Jim Fan就认为不必过度解读,Claude 3看似有自我意识的表现只是对齐了人类数据。他怀疑在强化学习微调数据集中,人类很有可能用类似的方式回应过这个问题,指出要找的答案与文章其他部分无关。Claude 3识别到当时的情况与训练数据中的情况相似,就合成了一个类似的答案。他认为大模型的“元认知行为”并没有大家想象的那么神秘,Claude 3是一个了不起的技术进步,但还不至于上升到哲学层面。但反方辩友也提出反驳,人类的“元认知”本质上不是同样的事吗?有网友总结到,Claude 3表现得就像有一个“连贯的主体”存在,不管是什么,总之与其他大模型都不一样。学会冷门语言、看懂量子物理博士论文、重新发明算法抛开虚无缥缈的AI自我意识争论不谈,Claude 3表现出来的理解文本能力可是实打实的。比如仅从提示词的翻译示例中学会冷门语言“切尔克斯语”(一种西亚语言)。不光把俄语句子翻译成了切尔克斯语,还提供了语法解释。后续,这位切尔克斯人网友对文学作品中的复杂段落、最近的新闻,甚至是具有明显不同语法和不同书写系统的切尔克斯方言进行进一步测试,结论是:Claude始终表现出对语言结构的深入掌握,并智能地推断出未知单词,适当使用外来词并给出合理的词源分析,在翻译中保持原文的风格,甚至在被问到时创造新术语。而提供的样本数据中只有几千个翻译对示例。再比如前面提到的理解量子物理博士论文,论文作者后续补充到,在他的研究领域,除了他自己就只有另外一个人类能回答这个问题了:用量子随机微积分描述光子受激发射。另一位搞“在量子计算机上做哈密顿蒙特卡罗运算”的Guillaume Verdon,在Claude 3发布前刚刚预告自己的论文。只比Anthropic官号宣布Claude 3(晚上10点)早了4个小时。Claude 3发布后,它第一时间尝试,先直接问AI对这个问题有没有思路?Claude 3给出了7种可能选项。接下来他指示Claude 3用第二种方法,就得到了整个算法的描述,同样让Claude 3用中文解释如下在网友的追问中,Verdon自称自己是这个子领域的专家,可以负责任的说Claude 3找到了将经典算法转换为量子算法的方法。除此之外,还有更多Claude 3测试结果不断被分享出来。有在长文档总结方面完胜GPT-4的。也有量子速度一本电子书,总结出5条金句的。以及在多模态理解上,识别日语收据文字和格式的。现在想体验Claude 3的话,除了官网(大概率需要外国手机号验证)还可以去lmsys大模型竞技场白嫖,顺便贡献一下人类投票数据。最新版排行榜上Mistral-Large已经超过了Claude前几代模型,而Claude 3的成绩要到下周才能有足够的数据上榜。Claude 3会不会在人类评估上一举超越GPT-4呢?量子位会和大家一起持续关注。OpenAI还有后手有网友表示,如果大家持续晒Claude有多棒,一直刺激OpenAI就会发布GPT-5,大家加油吧。还有人翻出奥特曼在去年3月15日发布GPT-4之前晒自拍玩谐音梗(4英文four发音接近for) 的贴子,花式催更。目前来看,Claude 3来势汹汹,OpenAI方面可能真的要坐不住了。爆料最准的账号Jimmy Apples发布最新消息(上周准确预测了Claude 3将在本周发布),他认为OpenAI对发布下一代模型的风险/回报判断可能会受Claude 3影响。刚刚从OpenAI离职的开发者关系负责人Logan Kilpatrick也在与网友互动中确认本周还会有大事发生。至于是GPT-4.5,Q*,Sora开放测试,还是直接GPT-5?OpenAI下一个产品又能否盖过Claude3的风头?参考链接:[1] ... PC版: 手机版:

相关推荐

封面图片

Anthropic 发布了更强大的 Claude 3 AI 模型

Anthropic 发布了更强大的 Claude 3 AI 模型 当地时间3月4日,由谷歌和亚马逊共同投资的人工智能初创公司 Anthropic 宣布推出 Claude 3 人工智能模型系列。该系列包括三个版本:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,每个后续模型都提供越来越强大的性能。目前 Claude 3 系列可支持处理 200k tokens 的上下文。其中 Opus 和 Sonnet 现已可在和 Claude API 中使用,Haiku 即将推出。据该初创公司称,该系列中功能最强大的 Claude 3 Opus 在各种基准测试中均优于竞争对手 OpenAI 的 AI 模型 GPT-4 和谷歌的 Gemini 1.0 Ultra。

封面图片

Claude 3 对比 GPT 4 的优势

Claude 3 对比 GPT 4 的优势 1⃣ 更高的智能水平:Claude 3 的旗舰模型 Opus 在多个领域超越了 GPT-4 和谷歌的 Gemini 1.0 Ultra,包括本科和研究生水平的知识、数学和复杂任务理解。 2⃣ 更快的响应速度:Claude 3 可以在实时聊天、自动补全和数据提取等任务中提供几乎即时的响应。其中,Haiku 是市场上智能类别最快且性价比最高的模型,可以在不到三秒的时间内阅读一篇带有图表和图形的 arXiv 论文。 3⃣ 强大的图像处理能力:Claude 3 具备与其他领先模型相当的图像处理能力,可以处理各种视觉格式,包括照片、图表、图形和技术图解。 4⃣ 减少不必要的拒绝:相较于之前的模型,Claude 3 的模型(Opus、Sonnet 和 Haiku)更少地拒绝回答接近系统边界的提示,表现出更加细致的请求理解和更好的拒绝策略。

封面图片

两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷 (英文) (英文) 在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了 LLM 基准测试的盲区。 一道简单的逻辑问题,竟让几乎所有的 LLM 全军覆没? 对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难 「爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?」 只需稍加思考,答案显而易见:M+1。(爱丽丝拥有的姐妹数量,再加上爱丽丝自己) 但是,当研究人员让 GPT-3.5/4、Claude、Gemini、Llama、Mistral 等模型回答时,得到的结果却非常离谱。只有 OpenAI 最新的 GPT-4o 勉强及格。

封面图片

Anthropic 推出 Claude 3 ,包括 Claude 3 Haiku、Claude 3 Sonnet 和 Claud

Anthropic 推出 Claude 3 ,包括 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus 3个版本,能力从小到大。 Opus 和 Sonnet 现可在和 Claude API 中使用,Haiku 即将推出。 能力方面,见图2。 速度方面: - Haiku 是市场上同类智能产品中速度最快、性价比最高的模型。它可以在三秒内读取 arXiv 上一篇信息和数据密集的研究论文(约 10k tokens),并附带图表和图形。 - Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,而且智能水平更高。它擅长处理要求快速响应的任务,如知识检索或销售自动化。Opus 的速度与 Claude 2 和 2.1 类似,但智能水平更高。 vision 能力 - Claude 3 型号具有与其他领先模型同等的复杂 vision 功能。它们可以处理各种 vision 格式,包括照片、图表、图形和技术图表。(图3) 准确性: - 与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题上的准确率(或正确答案)提高了两倍,同时也减少了错误答案。(图4) 另外,Claude 3 模型还将很快启用引文。 上下文能力: Claude 3 系列模型在推出之初将提供 20 万个上下文窗口。不过,所有三种模型都能接受超过 100 万个 tokens 的输入,Anthropic 会向特定用户提供。

封面图片

由几名前OpenAI员工创办的人工智能公司Anthropic表示,新的Claude 3系列人工智能模型的表现与谷歌和OpenAI

由几名前OpenAI员工创办的人工智能公司Anthropic表示,新的Claude 3系列人工智能模型的表现与谷歌和OpenAI的领先模型一样好,甚至更好。与早期版本不同的是, Claude 3也是多模态的,能够理解文本和照片输入。 Anthropic 表示 Claude 3 将可以回答更多的问题,理解更长的指令,并更准确。Claude 3可以理解更多的上下文,这意味着它可以处理更多的信息。 标签: #Anthropic #Claude 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

OPENAI 的竞争对手 Anthropic 刚刚发布了新模型 Claude 2.1

OPENAI 的竞争对手 Anthropic 刚刚发布了新模型 Claude 2.1 就在 OpenAI 陷入危机之际,Anthropic 推出了一款新的模型。Anthropic 是一家由谷歌支持的人工智能初创公司,由前 OpenAI 工程师创立。 Anthropic 公司宣布,其聊天机器人 Claude 2.1 的最新更新可以为专业级用户一次消化多达 20 万个 tokens,据称相当于 500 多页的材料。 该公司还表示,Claude 产生幻觉或撒谎的频率只有以前的一半,而且它还能通过可定制的工具完成搜索网页或使用计算器等操作。 聊天机器人现在还支持自定义、持续性的指令,并有一个新的测试窗口用于尝试提示。 、

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人