昨天比较热的一条推,作者在测试Claude 3 Opus模型时,发现它能够在极少量平行语料(5700个翻译对)的基础上,近乎完美

昨天比较热的一条推,作者在测试Claude3Opus模型时,发现它能够在极少量平行语料(5700个翻译对)的基础上,近乎完美地翻译和分析一门复杂的低资源语言Circassian。Calude3在这方面确实非常强大,基本上很少的数据就可以学会你想要教给他的内容。推文详细介绍:作者在测试Anthropic公司新模型Claude3Opus时,见证了令人惊叹的事情。作者一直在研究一门叫Circassian的低资源语言,这是一门孤立语言,语料稀缺,语法和形态极其复杂,对语言模型是巨大挑战。作者之前花了两年时间搜集了6.4万对俄语-Circassian语的平行语料,训练专门的机器翻译模型才取得了不错的效果。作为实验,他只给ClaudeOpus输入了5700对随机抽取的单词/句子对作为示例,然后让它翻译一些新句子。令人惊讶的是,ClaudeOpus不仅给出了完美的翻译,还对语法和词态进行了分析。即使是作者精心设计的,不太可能在示例数据中出现的复杂句子,ClaudeOpus也给出了无可挑剔的翻译和分析。它展现了对这门语言的深刻理解,在翻译文学作品、新闻、方言时也保持了原文的风格,遇到生词还能推测含义,提供词源分析,必要时甚至造新词。作者强调,用同样的输入数据,一个不懂Circassian语的语言学家可能需要一年时间才能达到类似水平。而ClaudeOpus只用几千个翻译对,一分钟内就掌握了语言的精髓。相比之下,GPT-4和作者之前微调的GPT-3.5模型都完全失败了。作者最初以为ClaudeOpus完全是从他提供的少量示例中学到了Circassian语的知识,后来发现其实它在预训练时已经学到了一些。尽管如此,Anthropic在训练数据中纳入了Circassian这样的小语种,效果令人印象深刻。尽管作者的初始假设有误,但ClaudeOpus展现的低资源语言能力依然令人惊叹,这预示着小语种和许多其他领域的重大突破。未来已经到来,而且令人惊喜。来源:

相关推荐

封面图片

AI识别唇语:Meta 开源第一个视听语言翻译语料库 MuAViC

AI识别唇语:Meta开源第一个视听语言翻译语料库MuAViCMuAViC源数据来自TED和TEDx超过8000名演讲者的视频,提供了9种语言的1200小时的音频-视觉语料,包括英语、阿拉伯语、德语、希腊语语、西班牙语、法语、意大利语、葡萄牙语和俄语。MuAViC支持多种任务,如自动语音识别、唇读、机器翻译和端到端的语音到文本翻译。Meta的开源模型AV-HuBERT经过MuAViC训练后,在嘈杂环境中的表现远优于其它领先的翻译模型。投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染OpenAI发布GPT-4o后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾邮件和色情短语。人类以单词为单位进行阅读,而LLM则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。多名研究过GPT-4o使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。“问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾邮件的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。“他们可能没有对中文进行适当的数据清理,”他说。——(节选)

封面图片

“弱智吧”不收弱智,成最佳中文AI训练语料!

“弱智吧”不收弱智,成最佳中文AI训练语料!4月4日,“弱智吧”突然在中文AI领域刷屏,中科院用各大社交平台的数据,作为中文AI语料数据进行训练,结果发现“弱智吧”居然是最棒的中文语料,在多项测试中取得最高分!目前LLM大型语言模型中,英文语料占到大多数,而中文数据集此前多半是先从英文翻译再进行训练,很多大模型的中文效果比英文差,为了调侃AI,许多人也常常拿弱智吧的问题去挑战AI。为了更好地满足中文大模型的需求,中科院联合多所大学利用中文数据集来训练中文大模型。首先,团队直接找到某乎、某瓣等社交网络平台,爬取数据并进行标注,打造了全新的中文指令微调数据集COIG-CQIA,再用这些数据集来训练零一万物开源大模型,并用GPT4在BELLE-Eval测试集上打分。在340亿参数版本的Yi-34B下,弱智吧的分数非常突出,可以说是一骑绝尘,在问答、分类、生成、总结、摘要和代码上均取得极高的分数,数学某乎分数最高76分,但弱智吧也取得了72.6分的高分,最终均分76.9分遥遥领先!弱智吧的出色成绩也引起了大量的讨论,对比其他专业的技术问答社区,弱智吧的数据集其实更加精炼有效,提高模型的逻辑推理能力,而且“弱智”的方向十分多元,文本质量极高,从而提高了模型性能。而COIG-CQIA,也成为目前相对来说相当高质量的中文指令微调数据集,收集了来自各种来源如社交媒体、百科知识、考试题库等大量高质量的中文指令,弱智吧的出色表现,出在高质量中文知识学习方面的潜力,也给我们带来更多深入的思(乐)考(子)。标签:#AI#中文预料#弱智吧频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

谷歌翻译网页版升级 可直接翻译图片中文字

谷歌翻译网页版升级可直接翻译图片中文字在最新的谷歌翻译网页版中,用户可以找到新的图片翻译选项。点击后就能上传照片或屏幕截图,翻译出来的文字可以复制,也能保存显示翻译文字后的图像。实际测试中,谷歌翻译对图片文字翻译时,不改变图片文字的基本布局和样式,最大程度上贴合图片原版内容页面。不过,翻译简单的图片内容还算靠谱,而复杂页面中,可能会出现字体大小不一,和排版变动较大的情况。据悉,Google翻译是谷歌公司提供一项免费的翻译服务,可提供109种语言之间的即时翻译,支持任意两种语言之间的字词、句子和网页翻译。可分析的人工翻译文档越多,译文的质量就会越高越好。...PC版:https://www.cnbeta.com.tw/articles/soft/1348995.htm手机版:https://m.cnbeta.com.tw/view/1348995.htm

封面图片

SILO是一种新的语言模型,通过在推断时使用非参数化数据存储来平衡法律风险和性能,从而在不训练高风险数据的情况下提高性能,并支持

是一种新的语言模型,通过在推断时使用非参数化数据存储来平衡法律风险和性能,从而在不训练高风险数据的情况下提高性能,并支持数据归因和内容移除。SILO的构建方式如下:1.在开放许可语料库(OLC)上训练参数化LM,这是一个我们用公共领域的228B代币和许可文本策划的新语料库2.使用更通用且易于修改的非参数数据存储对其进行增强(例如,包含受版权保护的书籍或新闻),仅在推理过程中查询。数据存储允许使用高风险数据而无需对其进行训练,支持句子级数据归因,并使数据生产者能够通过从商店中删除内容来选择退出该模型。这些功能可以促进对数据使用法规的遵守,例如美国的合理使用原则和欧盟的GDPR。

封面图片

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。基于大模型数据联盟构建的语料库,上海AI实验室对其中部分数据进行了细粒度清洗、去重以及价值梳理,形成了书生·万卷1.0,具备多元融合、精细处理、价值梳理、数学高效等四大特征。在多元方面,书生·万卷1.0包含文本、图文、视频等多模态数据,范围覆盖科技、融合、媒体、教育、法律等多个领域,在训练提升模型知识内涵、逻辑推理和泛化推理化能力方面具有显着效果。在精细化处理方面,书生·万卷1.0经历了甄别语言、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多维度重整、数据质量评估等精细化数据处理环节,从而能够更好接地装配后续的模型训练需求。在价值洞察方面,研究人员在书生·万卷1.0的构建过程中,着眼于内容与中文主流价值观结合的洞察,通过算法与人工评估的方式,提升了语料的纯净度。在高效建模方面,研究人员在书生·万卷1.0统一格式,并提供了详细的参数字段说明和工具指南,综合考虑了建模性和效率,可快速评估语言、多模态等大模型训练。目前,书生·万卷1.0已被评估书生·多态、书生·浦语的训练。通过对高质量语料的“消化模型”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出了优异的性能。#语料库

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人