AI 大模型的语言不平等:英语最便宜,其它语言要贵得多

AI大模型的语言不平等:英语最便宜,其它语言要贵得多用户所使用的语言对于大型语言模型(LLM)的费用有很大的影响,可能造成英语使用者和其它语言使用者之间的人工智能鸿沟。最近的一项研究显示,由于OpenAI等服务所采用的服务器成本衡量和计费的方式,英语输入和输出的费用要比其他语言低得多,其中简体中文的费用大约是英语的两倍,西班牙语是英语的1.5倍,而缅甸的掸语则是英语的15倍。推特用户DylanPatel分享了一张照片,展示了牛津大学进行的一项研究,该研究发现,让一个LLM处理一句缅甸语句子需要198个词元(tokens),而同样的句子用英语写只需要17个词元。词元代表了通过API(如OpenAI的ChatGPT或Anthropic的Claude2)访问LLM所需的计算力成本,这意味着缅甸语句子使用这种服务的成本比英语句子高出11倍。词元化模型(即人工智能公司将用户输入转换为计算成本的方式)意味着,除了英语之外的其他语言使用和训练模型要贵得多。这是因为像中文这样的语言有着不同、更复杂的结构(无论是从语法还是字符数量上),导致它们需要更高的词元化率。例如,根据OpenAI的GPT3分词器,“你的爱意(youraffection)”的词元,在英语中只需要两个词元,但在简体中文中需要八个词元。尽管简体中文文本只有4个字符(你的爱意),而英文有14个字符。——、

相关推荐

封面图片

AI大模型的语言不平等:英语最便宜,其它语言要贵得多#抽屉IT

封面图片

AI大模型的语言不平等:英语最便宜,其它语言要贵得多https://www.ithome.com/0/709/207.htm========Tokenizer硬伤问题

封面图片

牛津大学研究显示,不同语言使用AI大模型的成本不同,英语最便宜,其它语言要贵得多#抽屉IT

封面图片

成本差异铸成AI鸿沟?牛津:汉语训练费用是英语的2倍

成本差异铸成AI鸿沟?牛津:汉语训练费用是英语的2倍牛津大学最近进行的一项研究表明,从诸多语言模型的计费方式看,英语的输入和输出比其他语言的输入和输出要便宜得多。例如,西班牙语的成本约为英语的1.5倍,简体中文的价格约为2倍以上,缅甸掸语在15倍以上。成本的差异也间接导致英语使用者和世界其他语言使用者之间形成AI鸿沟。成本差异主要是因数据标记化所带来的。标记化就是将训练文本分解成更小的单元,这个更小的单元就是标记(Token)。这是一个人工智能(AI)公司将用户输入转换为计算成本的过程。研究显示,使用英语以外的语言访问和训练模型的成本都更高。例如中文,无论是在语法上还是在字符数量上,都有更复杂的结构,从而导致更高的标记化(Token)率。举例来看,基于OpenAI公司的GPT2模型,对于“国家不同,所得税的结构是不同的,税率和税率等级也有很大的差异”这句话的处理来看,在简体中文处理中运用到了66个Token,在英语处理中仅用到了24个Token,而在禅语处理中使用到了468个Token。就每次输出所需的费用而言,汉语的成本是英语的两倍。所以在AI相关的费用中,英语的成本效益是最高的。当涉及到语言模型时,设计者的主要目标是实现低成本和高效功能之间的平衡。随着AI领域的不断发展,科技公司必须仔细考虑语言选择对成本和可访问性的影响。这种成本差异促使中国、印度等国家纷纷开发自己的母语LLM项目。...PC版:https://www.cnbeta.com.tw/articles/soft/1374077.htm手机版:https://m.cnbeta.com.tw/view/1374077.htm

封面图片

DeepL推出新一代语言模型,号称翻译质量超越GPT-4

DeepL推出新一代语言模型,号称翻译质量超越GPT-4翻译技术公司DeepL日前宣布推出新一代大型语言模型(LLM),显著提升了其翻译服务质量。根据最新盲测结果,DeepL的新模型在翻译质量方面优于谷歌翻译、ChatGPT-4和微软翻译。与经典模型相比,新模型在日语、简体中文和德语与英语互译方面的质量提升了1.4到1.7倍。DeepL强调,新模型不仅翻译更加自然流畅,还减少了误译情况,可为企业节省大量编辑时间和成本。Via凌卡关注频道@ZaiHuaPd投稿爆料@ZaiHuabot

封面图片

语言模型的神奇之处,尽管只针对英语进行了训练,模型却能理解非英语的指令。

语言模型的神奇之处,尽管只针对英语进行了训练,模型却能理解非英语的指令。JanLeike: WiththeInstructGPTpaperwefoundthatourmodelsgeneralizedtofollowinstructionsinnon-EnglisheventhoughwealmostexclusivelytrainedonEnglish.Westilldon'tknowwhy.Iwishsomeonewouldfigurethisout.

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人