昨天比较热的一条推,作者在测试Claude 3 Opus模型时,发现它能够在极少量平行语料(5700个翻译对)的基础上,近乎完美
昨天比较热的一条推,作者在测试Claude3Opus模型时,发现它能够在极少量平行语料(5700个翻译对)的基础上,近乎完美地翻译和分析一门复杂的低资源语言Circassian。Calude3在这方面确实非常强大,基本上很少的数据就可以学会你想要教给他的内容。推文详细介绍:作者在测试Anthropic公司新模型Claude3Opus时,见证了令人惊叹的事情。作者一直在研究一门叫Circassian的低资源语言,这是一门孤立语言,语料稀缺,语法和形态极其复杂,对语言模型是巨大挑战。作者之前花了两年时间搜集了6.4万对俄语-Circassian语的平行语料,训练专门的机器翻译模型才取得了不错的效果。作为实验,他只给ClaudeOpus输入了5700对随机抽取的单词/句子对作为示例,然后让它翻译一些新句子。令人惊讶的是,ClaudeOpus不仅给出了完美的翻译,还对语法和词态进行了分析。即使是作者精心设计的,不太可能在示例数据中出现的复杂句子,ClaudeOpus也给出了无可挑剔的翻译和分析。它展现了对这门语言的深刻理解,在翻译文学作品、新闻、方言时也保持了原文的风格,遇到生词还能推测含义,提供词源分析,必要时甚至造新词。作者强调,用同样的输入数据,一个不懂Circassian语的语言学家可能需要一年时间才能达到类似水平。而ClaudeOpus只用几千个翻译对,一分钟内就掌握了语言的精髓。相比之下,GPT-4和作者之前微调的GPT-3.5模型都完全失败了。作者最初以为ClaudeOpus完全是从他提供的少量示例中学到了Circassian语的知识,后来发现其实它在预训练时已经学到了一些。尽管如此,Anthropic在训练数据中纳入了Circassian这样的小语种,效果令人印象深刻。尽管作者的初始假设有误,但ClaudeOpus展现的低资源语言能力依然令人惊叹,这预示着小语种和许多其他领域的重大突破。未来已经到来,而且令人惊喜。来源:
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人