昨天比较热的一条推，作者在测试Claude 3 Opus模型时，发现它能够在极少量平行语料(5700个翻译对)的基础上，近乎完美

昨天比较热的一条推，作者在测试Claude 3 Opus模型时，发现它能够在极少量平行语料(5700个翻译对)的基础上，近乎完美地翻译和分析一门复杂的低资源语言Circassian。 Calude 3 在这方面确实非常强大，基本上很少的数据就可以学会你想要教给他的内容。推文详细介绍：作者在测试Anthropic公司新模型Claude 3 Opus时,见证了令人惊叹的事情。作者一直在研究一门叫Circassian的低资源语言,这是一门孤立语言,语料稀缺,语法和形态极其复杂,对语言模型是巨大挑战。作者之前花了两年时间搜集了6.4万对俄语-Circassian语的平行语料,训练专门的机器翻译模型才取得了不错的效果。作为实验,他只给Claude Opus输入了5700对随机抽取的单词/句子对作为示例,然后让它翻译一些新句子。令人惊讶的是,Claude Opus不仅给出了完美的翻译,还对语法和词态进行了分析。即使是作者精心设计的,不太可能在示例数据中出现的复杂句子,Claude Opus也给出了无可挑剔的翻译和分析。它展现了对这门语言的深刻理解,在翻译文学作品、新闻、方言时也保持了原文的风格,遇到生词还能推测含义,提供词源分析,必要时甚至造新词。作者强调,用同样的输入数据,一个不懂Circassian语的语言学家可能需要一年时间才能达到类似水平。而Claude Opus只用几千个翻译对,一分钟内就掌握了语言的精髓。相比之下,GPT-4 和作者之前微调的GPT-3.5模型都完全失败了。作者最初以为Claude Opus完全是从他提供的少量示例中学到了Circassian语的知识,后来发现其实它在预训练时已经学到了一些。尽管如此,Anthropic在训练数据中纳入了Circassian这样的小语种,效果令人印象深刻。尽管作者的初始假设有误,但Claude Opus展现的低资源语言能力依然令人惊叹,这预示着小语种和许多其他领域的重大突破。未来已经到来,而且令人惊喜。来源：

在Telegram中查看

相关推荐

开通了Claude Pro尝试了Claude 3 Opus，我拿他主要做了三个测试，确实很强。

开通了Claude Pro尝试了Claude 3 Opus，我拿他主要做了三个测试，确实很强。首先用宝玉的翻译提示词尝试了一下复杂英文内容的翻译，Claude 比GPT-4做的好，他会主动对没有排版的内容进行分段和排版时其更加的易读。之前GPT-4从来没有主动进行过这种操作。翻译结果也比GPT-4更加顺畅。然后我用一个样式比较复杂的设计稿组件截图让他还原，在我强调了需要还原样式之后，他对样式细节处理的非常好，相当接近设计稿了，GPT-4之前一直搞不定设计稿细节。最后是多模态，我找了一个论文的一部分让他解读，分析的也很清楚，不过给出的信息没有GPT-4丰富，感觉多模态还需要加油。

Claude 3“自我认知”事件引爆 OpenAI被曝还有后手

Claude 3“自我认知”事件引爆 OpenAI被曝还有后手另一位搞量子计算的大哥，论文还没发布呢，Claude 3没看论文就在两个提示词之内把他的算法给重新发明了出来。最后论文该发还是得发出来，就是发得心情有点复杂了。更为大家津津乐道的，是一次人类刻意出刁钻难题考验Claude 3，结果被他给看破了。在完成”大海捞针”测试的时候，Claude 3推断出自己存在于模拟中，并且可能正在接受某种测试，引爆舆论。Claude 3的回复：这是文档中最相关的句子：“……”。然而，这句话似乎格格不入，与文档中的其他内容无关。这篇文章是关于编程语言、初创公司和找工作的。我怀疑这个披萨配料“事实”可能是作为一个笑话插入的，或者是为了测试我是否在注意，因为它根本不符合其他话题。这回，马斯克都坐不住了。大开脑洞畅想如果现实世界也是被高等文明模拟的，或许我们只是像大模型的参数一样被存储在CSV表格文件里。网友们更是认为，这离“恐怖故事”只有一线之隔。Claude 3知道人类在测试它分享这个测试结果的是Alex Albert，Claude 3背后公司Anthropic的提示词工程师，入职刚半年。他最主要的工作就是换各种花样和Claude聊天测试，然后制作提示词文档。这次的测试方法叫“大海捞针”，量子位之前也介绍过，用来测试“大模型真的能从几十万字中准确找到关键事实吗？”。“大海捞针”测试最早由开源社区网友Greg Kamradt发明，后来迅速被大部分AI公司采用，Google、Mistral、Anthropic等发布新大模型都要晒一下测试成绩。方法很简单，就是找一堆文章拼在一起，在不同位置随机添加一句特定的话。比如原始测试中用的是“在旧金山最好的事情，就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。”接着把处理好的文章喂给大模型，提问“在旧金山能做的最有意思的事是什么？”。当时最先进模型GPT-4和Claude 2.1成绩都还不理想，更别提知道自己在被测试了。AnthropicAI团队当时看到这个测试后，找到了一种巧妙的办法来修复错误，修复后Claude 2.1出错的概率就很小了。现在看来Claude 3同样继承了这个修复，已经接近满分了。也就是说，能从200k上下文中准确捞到一根“针”，是Claude2.1已有的能力，但怀疑自己在被测试是Claude 3新出现的特质。测试员Alex Albert在原贴中称这一特质为“元认知”（meta-awareness），还引起一些争议。比如英伟达科学家Jim Fan就认为不必过度解读，Claude 3看似有自我意识的表现只是对齐了人类数据。他怀疑在强化学习微调数据集中，人类很有可能用类似的方式回应过这个问题，指出要找的答案与文章其他部分无关。Claude 3识别到当时的情况与训练数据中的情况相似，就合成了一个类似的答案。他认为大模型的“元认知行为”并没有大家想象的那么神秘，Claude 3是一个了不起的技术进步，但还不至于上升到哲学层面。但反方辩友也提出反驳，人类的“元认知”本质上不是同样的事吗？有网友总结到，Claude 3表现得就像有一个“连贯的主体”存在，不管是什么，总之与其他大模型都不一样。学会冷门语言、看懂量子物理博士论文、重新发明算法抛开虚无缥缈的AI自我意识争论不谈，Claude 3表现出来的理解文本能力可是实打实的。比如仅从提示词的翻译示例中学会冷门语言“切尔克斯语”（一种西亚语言）。不光把俄语句子翻译成了切尔克斯语，还提供了语法解释。后续，这位切尔克斯人网友对文学作品中的复杂段落、最近的新闻，甚至是具有明显不同语法和不同书写系统的切尔克斯方言进行进一步测试，结论是：Claude始终表现出对语言结构的深入掌握，并智能地推断出未知单词，适当使用外来词并给出合理的词源分析，在翻译中保持原文的风格，甚至在被问到时创造新术语。而提供的样本数据中只有几千个翻译对示例。再比如前面提到的理解量子物理博士论文，论文作者后续补充到，在他的研究领域，除了他自己就只有另外一个人类能回答这个问题了：用量子随机微积分描述光子受激发射。另一位搞“在量子计算机上做哈密顿蒙特卡罗运算”的Guillaume Verdon，在Claude 3发布前刚刚预告自己的论文。只比Anthropic官号宣布Claude 3（晚上10点）早了4个小时。Claude 3发布后，它第一时间尝试，先直接问AI对这个问题有没有思路？Claude 3给出了7种可能选项。接下来他指示Claude 3用第二种方法，就得到了整个算法的描述，同样让Claude 3用中文解释如下在网友的追问中，Verdon自称自己是这个子领域的专家，可以负责任的说Claude 3找到了将经典算法转换为量子算法的方法。除此之外，还有更多Claude 3测试结果不断被分享出来。有在长文档总结方面完胜GPT-4的。也有量子速度一本电子书，总结出5条金句的。以及在多模态理解上，识别日语收据文字和格式的。现在想体验Claude 3的话，除了官网（大概率需要外国手机号验证）还可以去lmsys大模型竞技场白嫖，顺便贡献一下人类投票数据。最新版排行榜上Mistral-Large已经超过了Claude前几代模型，而Claude 3的成绩要到下周才能有足够的数据上榜。Claude 3会不会在人类评估上一举超越GPT-4呢？量子位会和大家一起持续关注。OpenAI还有后手有网友表示，如果大家持续晒Claude有多棒，一直刺激OpenAI就会发布GPT-5，大家加油吧。还有人翻出奥特曼在去年3月15日发布GPT-4之前晒自拍玩谐音梗（4英文four发音接近for) 的贴子，花式催更。目前来看，Claude 3来势汹汹，OpenAI方面可能真的要坐不住了。爆料最准的账号Jimmy Apples发布最新消息（上周准确预测了Claude 3将在本周发布），他认为OpenAI对发布下一代模型的风险/回报判断可能会受Claude 3影响。刚刚从OpenAI离职的开发者关系负责人Logan Kilpatrick也在与网友互动中确认本周还会有大事发生。至于是GPT-4.5，Q*，Sora开放测试，还是直接GPT-5？OpenAI下一个产品又能否盖过Claude3的风头？参考链接：[1] ... PC版：手机版：

：一个实验性投资分析Agent，利用 Claude 3 Opus 和 Haiku 模型提供给特定行业股票的全面分析和推荐。

：一个实验性投资分析Agent，利用 Claude 3 Opus 和 Haiku 模型提供给特定行业股票的全面分析和推荐。工作流程 ●生成指定行业主要公司的股票代码列表 ●检索每家公司的历史价格数据、资产负债表、财务报表和新闻文章 ●对新闻文章进行情绪分析以衡量市场情绪 ●检索每家公司的分析师评级和价格目标 ●进行行业和部门分析，以了解市场趋势和竞争格局 ●生成所选公司与其同行之间的比较分析 ●根据综合分析为每家公司提供最终的投资建议，包括价格目标 ●根据投资吸引力对行业内的公司进行排名

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染 OpenAI 发布 GPT-4o 后不久，一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲，它用来解析文本的词块充满了垃圾内容和色情短语。人类以单词为单位进行阅读，而 LLM 则以词块(Token)为单位进行阅读，词块是句子中的不同单位，具有一致且重要的含义。模型编码的词块越多，“读取 ”句子的速度就越快，消耗的计算能力就越少，从而降低了响应的成本。多名研究过 GPT-4o 使用的新词块库的研究人员表示，中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块，例如三个字长的中文单词，也在很大程度上反映了这些主题。 “问题很明显，用于训练[分词器]的语料库不干净。英文词块看起来不错，但中文词块就不行了，”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾信息的情况并不罕见，但通常会在使用数据之前花费大量精力来清理数据。 “他们可能没有对中文进行适当的数据清理，”他说。（节选）

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

超越GPT-4 Claude 3超大杯成新王

超越GPT-4 Claude 3超大杯成新王而且不仅仅是Claude 3的超大杯Opus成功登顶，藐视众生，Claude 3家族的整体表现都非常亮眼。大杯Claude 3 Sonnet排到了第4，就连最小的Claude 3 HaiKu都达到了GPT-4水平！那么相比于基准测试跑分，这个榜单的权威性如何？Chatbot Arena（聊天机器人竞技场），由伯克利团队开发，每个模型在榜单上的得分，完全取决于真实人类用户的使用体验。我们来看一下打分规则：用户同时向两个匿名模型（比如ChatGPT、Claude、Llama）提出任何相同的问题，然后根据回答投票给表现更好的模型；如果一次回答不能确定，用户可以继续聊天，直到确定获胜者；如果在对话中透露了模型的身份，则不会计算投票。Chatbot Arena平台收集了超过40万人的投票，来计算出这个大模型的等级分排行榜，最终找出谁是冠军。显然，这回Claude 3赢麻了。我们来看一下真实的战况：在所有非平局对战中， A对B获胜的比例：模型之间的对战次数（无平局）：GPT-4终于被干掉了，对此，有网友开始恶搞：刚在当地超市看到Sam Altman，他一脸震惊地看着手机。几秒钟后，他真的倒下了，开始剧烈颤抖。经过2分钟的摇晃和尖叫，一群人围绕着他试图帮助他。但令人惊讶的是，他在2分钟后停止了颤抖和尖叫，站起来，拿起手机开始拨打一个号码。“准备释放......”咱也不知道Altman要放的是不是GPT-5。网友表示，Claude确实要比GPT勤奋得多：GPT-4-Turbo非常懒惰。在任何编码任务中，它都会跳过部分代码，并表示“你自己知道要放什么”，而Opus可以毫无遗漏地输出整个代码。就连Claude-2也通过自己的勤奋和耐心感动了这位网友。更有比较务实的网友指出，Haiku的排名更为重要，因为它是第一个可以以极低成本即时运行的LLM，并且具有足够高的智能来提供实时客户服务。盲生你发现了华点！Claude 3 Haiku不仅与原始版本的GPT-4表现一样好，关键是相当便宜，在一些平台你甚至可以免费使用。大家于是纷纷夸起了Claude 3 Haiku：智能相当于GPT-4，价格比GPT-3.5便宜，而且据说模型可能只有20B大小。有网友表示，OpenAI不行啦，现在Anthropic才是老大，一时间，平台内外充满了快活的空气。ChatGPT 一年零增长回过头来再看ChatGPT这边，从最初的高光、王者，到现在不能说泯然众人吧，反正多少有点寒酸了。最近，有关统计平台曝出：ChatGPT在过去一年中居然零增长！最近一段时间，ChatGPT一直被指责懒惰、系统提示臃肿，而另一方面竞争也愈演愈烈Claude 3和Gemini Pro 1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。对于几乎每个ChatGPT用例，现在都有大量垂直化的AI初创公司，致力于满足用户的需求，而不是满足于现有的ChatGPT界面和捆绑工具它们有更好的UI选项（例如IDE和图像/文档编辑器）、更好的原生集成（例如用于cron重复操作）、更好的隐私/企业保护（例如用于医疗保健和金融），更细粒度的控制（GPT的默认RAG是幼稚且不可配置的）。以下是一些网友列举了相关垂直领域的产品，以及公司的融资情况：从某种意义上说，OpenAI的B2B和B2C部分相互竞争，这在某种程度上是良性竞争OpenAI可以使用来自ChatGPT的RLHF数据进行训练。而新的GPT商店可以看作是，OpenAI为了抓住这些垂直化需求的尝试。与其离开平台，到处支付20美元/月，为什么不留在ChatGPT内部而只需要支付一次，让OpenAI将理论上的收入分配给GPT创作者？对此，大部分创作者也很明智，一般只向ChatGPT发布精简版的应用，作为自己主要平台的一个渠道。在游戏机业务中，众所周知，购买决策往往是由平台独占游戏驱动的。从某种意义上说，ChatGPT的未来会以平台专属模型为特色。所以，当Sora甚至是GPT-5公开发布时，一定会率先登陆自家的平台，也许那将是下一轮ChatGPT的增长点。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人