咬文嚼字:词元是当今生成式人工智能失败的一个重要原因

咬文嚼字:词元是当今生成式人工智能失败的一个重要原因 因此,出于实用性和技术性的考虑,今天的转换器模型使用的文本已经被分解成更小、更小的片段,这些片段被称为标记这一过程被称为标记化。词元可以是单词,如"fantastic"。也可以是音节,如"fan"、"tas"和"tic"。根据标记化器(标记化模型)的不同,它们甚至可以是单词中的单个字符(例如,"f"、"a"、"n"、"t"、"a"、"s"、"t"、"i"、"c")。使用这种方法,转换器可以在达到称为上下文窗口的上限之前接收更多信息(语义意义上的)。但标记化也会带来偏差。有些标记符有奇特的间距,这会使转换器出错。例如,词元转换器可能会将"once upon a time"编码为"once"、"on"、"a"、"time",而将"once upon a"(有尾部空白)编码为"once"、"on"、"a"、"."。根据对模型的提示方式"once upon a"还是"once upon a ,"结果可能完全不同,因为模型并不能理解(就像人一样)意思是一样的。标记符号化器处理大小写的方式也不同。对模型来说,"Hello"并不一定等同于"HELLO";"hello"通常是一个标记(取决于标记化器),而"HELLO"可能有三个标记("HE"、"El"和"O")。这就是许多转换器无法通过大写字母测试的原因。东北大学研究大型语言模型可解释性的博士生 Sheridan Feucht 对此表示:"对于语言模型来说,'词'到底应该是什么,这个问题有点难以解决,即使我们让人类专家就完美的标记词汇达成一致,模型可能仍然会认为进一步'分块'是有用的。"我的猜测是,由于这种模糊性,不存在完美的标记符号生成器。"这种"模糊性"给英语以外的语言带来了更多问题。许多标记化方法都认为句子中的空格表示一个新词。这是因为它们是针对英语设计的。但并非所有语言都使用空格来分隔单词。汉语和日语不使用空格,韩语、泰语和高棉语也不使用。2023 年牛津大学的一项研究发现,由于非英语语言的标记化方式不同,转换器完成一项非英语语言任务所需的时间可能是英语任务的两倍。同一项研究和另一项研究发现,"标记效率"较低的语言的用户很可能会看到更差的模型性能,但却要支付更高的使用费用,因为许多人工智能供应商是按标记收费的。标记化器通常将逻各斯书写系统中的每个字符(在这种系统中,印刷符号代表单词,而与发音无关,如中文)视为一个独立的标记,从而导致标记数较高。同样,标记化器在处理凝集语(单词由称为词素的有意义的小词元组成,如土耳其语)时,往往会将每个词素变成一个标记,从而增加总体标记数。(在泰语中,"hello"的对应词สวัสดี有六个标记)。2023 年,Google DeepMind 人工智能研究员 Yennie Jun进行了一项分析,比较了不同语言的标记化及其下游效果。通过使用一个翻译成 52 种语言的平行文本数据集,Jun 发现有些语言需要多达 10 倍的标记才能表达英语中的相同含义。除了语言上的不平等,标记化也可以解释为什么今天的模型数学不好。数字标记化很少能保持一致。因为它们并不真正了解数字是什么,标记符号化器可能会将"380"视为一个标记符号,而将"381"表示为一对("38"和"1")这实际上破坏了数字之间的关系以及方程和公式中的结果。结果就是转换器混乱;最近的一篇论文表明,模型很难理解重复的数字模式和上下文,尤其是时间数据。(参见:GPT-4认为7735 大于 7926)。这也是模型不擅长解决变位问题或颠倒单词的原因。标记化显然给生成式人工智能带来了挑战。它们能被解决吗?也许吧。Feucht 指出,像MambaByte 这样的"字节级"状态空间模型,通过完全取消标记化,可以摄取比转换器多得多的数据,而不会影响性能。MambaByte 可直接处理代表文本和其他数据的原始字节,在语言分析任务方面可与某些转换器模型媲美,同时还能更好地处理"噪音",如带有交换字符、间距和大写字母的单词。不过,像 MambaByte 这样的模式还处于早期研究阶段。"最好的办法可能是让模型直接查看字符,而不强加标记化,但现在这对变换器来说在计算上是不可行的,"Feucht 说。"特别是对于变换器模型来说,计算量与序列长度成二次方关系,因此我们真的希望使用简短的文本表示"。如果不能在词元化方面取得突破,新的模型架构似乎将成为关键。 ... PC版: 手机版:

相关推荐

封面图片

网站生成式人工智能手册

网站生成式人工智能手册 网站功能:人工智能学习手册 网站简介:一个免费、开源的学习资源,旨在系统地组织和呈现现代人工智能(AI)系统的核心概念,尤其是大型语言模型(LLM)和其他生成式模型的最新进展。 该手册为技术背景的读者提供了一条学习路径,帮助他们深入理解生成式AI的基础和应用,特别适合那些对AI充满好奇或希望在该领域发展职业的人士。 网站链接:点击打开 频道 群聊 投稿 商务

封面图片

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃 用于训练大型语言模型的数据最初来自人类来源,如书籍、文章、照片等,这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容,一个明显的问题出现了:当人工智能生成的内容在互联网上扩散时,人工智能模型开始对其进行训练。研究人员发现,“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布,得出结论:“从其他模型产生的数据中学习会导致模型崩溃 这是一个退化的过程,并且随着时间的推移,模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快:模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移,表现越来越差,错误越来越多。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

亚马逊云科技在北京举办生成式人工智能沟通会

亚马逊云科技在北京举办生成式人工智能沟通会 北京时间4月2日,亚马逊云科技 (AWS) 在北京举办生成式人工智能沟通会,重点展示了一个月前发布的 Claude 3 系列大模型。一位亚马逊云科技人士表示,AWS 并没有在中国境内的服务器上部署 Claude 3。和微软 Azure 一样,中国公司可以通过 AWS 全球提供的 Bedrock 服务,申请调用在其他地区部署的 Claude 3 模型,完成计算。目前 AWS 仅支持 Claude 3 的 Sonnet 和 Haiku 模型,它们的性能比 Opus 较弱,但成本更低、响应速度更快。据了解,Opus 模型近期也会在 AWS 上线。上述亚马逊云科技的人士说,Claude 3 系列模型发布后,他们收到了大量中国公司的合作需求。

封面图片

谷歌将生成式人工智能引入 Google 地图

谷歌将生成式人工智能引入 Google 地图 当地时间2月1日,谷歌宣布推出使用生成式人工智能来发现地点的新方法。只需用户说出要寻找的内容 (无论是多么具体、独特或广泛),谷歌的大语言模型 (LLM) 就会分析 Google 地图上超过 2.5 亿个地点的详细信息以及来自超过 3 亿贡献者的社区的可信见解,从而快速提出去哪里的建议。这项早期访问实验将于本周在美国启动。

封面图片

谷歌生成式人工智能失败将逐渐削弱用户信任

谷歌生成式人工智能失败将逐渐削弱用户信任 Google对此作出回应,删除了这些回复,并表示正在利用这些错误来改进其系统。但这些事件,加上Google灾难性的 Gemini 图像生成器发布,导致该应用程序生成了历史上不准确的图像,可能会严重损害这家搜索巨头的信誉。“Google应该是互联网上的主要信息来源。”纽约大学坦登工程学院计算机科学与工程副教授 Chinmay Hegde 解释道。“如果该产品被淡化,它将慢慢侵蚀我们对Google的信任。”Google的 AI 概览问题并不是该公司自开始其生成式 AI 驱动以来第一次遇到麻烦。该公司的 Bard 聊天机器人(Google于 2 月将其更名为 Gemini)在 2023 年 2 月的宣传视频中出现了一个错误,导致Google股价下跌。然后还有它的Gemini 图像生成器软件,它可以生成不准确场景中不同群体的照片,包括 1943 年的德国士兵。人工智能一直存在偏见,Google试图通过在生成人物图像时纳入更广泛的种族多样性来克服这一问题。但该公司矫枉过正,软件最终拒绝了一些针对特定背景人物图像的请求。Google对此作出回应,暂时下线了该软件,并为此事道歉。与此同时,AI 概览问题出现的原因在于Google表示用户问了一些不常见的问题。在吃石头的例子中,Google发言人表示,似乎一个关于地质学的网站将其他来源的有关该主题的文章联合发布到他们的网站上,而这恰好包括了一篇最初出现在洋葱报上的文章。AI 概览链接到了该来源。这些都是很好的解释,但Google继续发布存在缺陷的产品并需要进行解释的事实让人感到厌倦。卡内基梅隆大学泰珀商学院商业伦理学副教授德里克·莱本 (Derek Leben) 表示:在某种程度上,你必须对自己推出的产品负责。“你不能只是说......我们将把人工智能融入到我们所有成熟的产品中,而且它处于持续的测试模式,对于它造成的任何错误或问题,我们都不会负责,甚至不会受到指责,就对产品本身的信任而言。”Google是网上查找事实的首选网站。每当我和朋友就一些无聊的话题争论时,我们中的一个总会大喊:“好吧,Google一下!”你很可能也这么做过。也许不是因为你想证明你比朋友更了解辛普森一家的一些鲜为人知的事实,但仍然如此。关键是,Google已经建立了值得信赖的声誉,而它的人工智能失误正在慢慢侵蚀这一声誉。那么,为什么会出现这样的失误呢?Hegde 说,公司只是行动太快,在产品尚未准备好时就发布,以期超越微软等竞争对手(微软) 和 OpenAI。“研究的步伐如此之快,以至于研究和产品之间的差距似乎正在显著缩小,而这导致了所有这些表面问题。”他解释道。自 2023 年 2 月微软和 OpenAI 联手发布其 Bing 搜索引擎和聊天机器人的生成式 AI 版本以来,Google一直在努力摆脱落后于微软和 OpenAI 的形象。本月早些时候,OpenAI 甚至在 I/O 开发者大会开始前一天宣布了其强大的 GPT-4o AI 模型,从而抢在了Google之前。但如果击败竞争对手意味着推出会产生错误或有害信息的产品,那么Google就有可能给用户留下这样的印象:它的生成式人工智能成果不可信,最终不值得使用。 ... PC版: 手机版:

封面图片

Roblox借助LLM语言模型发布实时人工智能聊天翻译器

Roblox借助LLM语言模型发布实时人工智能聊天翻译器 Roblox 首席技术官丹-斯特曼(Dan Sturman)说,该翻译器的目标是让Roblox用户更容易理解对方在说什么,从而让他们在相互交流时感觉更舒适。翻译器会自动翻译聊天内容,但用户可以点击图标查看原始信息。"我们知道,当用户用自己的语言与他人交谈或互动时,参与度就会提高,"Sturman 说。"我们借鉴了这一理念,并通过自动翻译消除了语言障碍。"Roblox 首先建立了一个基于转换器的大型语言模型 (LLM),该模型通过公开数据和内部数据进行训练。它将 LLM 置于一个专家混合(MoE)架构中,这是一个运行多个翻译应用程序的环境,每个应用程序都是一种语言的专家。Sturman 说,考虑到他们项目的规模,他的团队认为建立自己的模型比修改现成的 LLM 更容易。斯图尔曼说,Roblox 会监控聊天内容(出于信任和安全考虑),如果翻译不尽完美,可以得到反馈。他补充说,增加聊天翻译人工智能"不会改变我们的隐私和安全流程,违禁词语仍会被屏蔽"。Roblox 在过去几年中一直在努力吸引较为年长的用户,并一直在使用生成式人工智能模型来增强用户体验。去年,它为开发者推出了一款人工智能聊天机器人助手,还能自动将图像资产(如建筑物上的文字)翻译成用户的默认语言。斯图尔曼希望翻译模式最终能超越单纯的文本聊天翻译。"未来,我们可以使用人工智能将不合规的[违禁]词语翻译成合规词语,或者将其用于语音聊天的实时语音翻译,还有很多可能性。"其他公司也在开发人工智能翻译模型。Meta 发布了语音到文本和文本到文本的翻译器 SeamlessM4T,可处理近 100 种语言。Google的通用语音模型也能翻译约 100 种语言,并已部署在 YouTube 上翻译字幕。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人