咬文嚼字:词元是当今生成式人工智能失败的一个重要原因

咬文嚼字:词元是当今生成式人工智能失败的一个重要原因 因此,出于实用性和技术性的考虑,今天的转换器模型使用的文本已经被分解成更小、更小的片段,这些片段被称为标记这一过程被称为标记化。词元可以是单词,如"fantastic"。也可以是音节,如"fan"、"tas"和"tic"。根据标记化器(标记化模型)的不同,它们甚至可以是单词中的单个字符(例如,"f"、"a"、"n"、"t"、"a"、"s"、"t"、"i"、"c")。使用这种方法,转换器可以在达到称为上下文窗口的上限之前接收更多信息(语义意义上的)。但标记化也会带来偏差。有些标记符有奇特的间距,这会使转换器出错。例如,词元转换器可能会将"once upon a time"编码为"once"、"on"、"a"、"time",而将"once upon a"(有尾部空白)编码为"once"、"on"、"a"、"."。根据对模型的提示方式"once upon a"还是"once upon a ,"结果可能完全不同,因为模型并不能理解(就像人一样)意思是一样的。标记符号化器处理大小写的方式也不同。对模型来说,"Hello"并不一定等同于"HELLO";"hello"通常是一个标记(取决于标记化器),而"HELLO"可能有三个标记("HE"、"El"和"O")。这就是许多转换器无法通过大写字母测试的原因。东北大学研究大型语言模型可解释性的博士生 Sheridan Feucht 对此表示:"对于语言模型来说,'词'到底应该是什么,这个问题有点难以解决,即使我们让人类专家就完美的标记词汇达成一致,模型可能仍然会认为进一步'分块'是有用的。"我的猜测是,由于这种模糊性,不存在完美的标记符号生成器。"这种"模糊性"给英语以外的语言带来了更多问题。许多标记化方法都认为句子中的空格表示一个新词。这是因为它们是针对英语设计的。但并非所有语言都使用空格来分隔单词。汉语和日语不使用空格,韩语、泰语和高棉语也不使用。2023 年牛津大学的一项研究发现,由于非英语语言的标记化方式不同,转换器完成一项非英语语言任务所需的时间可能是英语任务的两倍。同一项研究和另一项研究发现,"标记效率"较低的语言的用户很可能会看到更差的模型性能,但却要支付更高的使用费用,因为许多人工智能供应商是按标记收费的。标记化器通常将逻各斯书写系统中的每个字符(在这种系统中,印刷符号代表单词,而与发音无关,如中文)视为一个独立的标记,从而导致标记数较高。同样,标记化器在处理凝集语(单词由称为词素的有意义的小词元组成,如土耳其语)时,往往会将每个词素变成一个标记,从而增加总体标记数。(在泰语中,"hello"的对应词สวัสดี有六个标记)。2023 年,Google DeepMind 人工智能研究员 Yennie Jun进行了一项分析,比较了不同语言的标记化及其下游效果。通过使用一个翻译成 52 种语言的平行文本数据集,Jun 发现有些语言需要多达 10 倍的标记才能表达英语中的相同含义。除了语言上的不平等,标记化也可以解释为什么今天的模型数学不好。数字标记化很少能保持一致。因为它们并不真正了解数字是什么,标记符号化器可能会将"380"视为一个标记符号,而将"381"表示为一对("38"和"1")这实际上破坏了数字之间的关系以及方程和公式中的结果。结果就是转换器混乱;最近的一篇论文表明,模型很难理解重复的数字模式和上下文,尤其是时间数据。(参见:GPT-4认为7735 大于 7926)。这也是模型不擅长解决变位问题或颠倒单词的原因。标记化显然给生成式人工智能带来了挑战。它们能被解决吗?也许吧。Feucht 指出,像MambaByte 这样的"字节级"状态空间模型,通过完全取消标记化,可以摄取比转换器多得多的数据,而不会影响性能。MambaByte 可直接处理代表文本和其他数据的原始字节,在语言分析任务方面可与某些转换器模型媲美,同时还能更好地处理"噪音",如带有交换字符、间距和大写字母的单词。不过,像 MambaByte 这样的模式还处于早期研究阶段。"最好的办法可能是让模型直接查看字符,而不强加标记化,但现在这对变换器来说在计算上是不可行的,"Feucht 说。"特别是对于变换器模型来说,计算量与序列长度成二次方关系,因此我们真的希望使用简短的文本表示"。如果不能在词元化方面取得突破,新的模型架构似乎将成为关键。 ... PC版: 手机版:

相关推荐

封面图片

网站生成式人工智能手册

网站生成式人工智能手册 网站功能:人工智能学习手册 网站简介:一个免费、开源的学习资源,旨在系统地组织和呈现现代人工智能(AI)系统的核心概念,尤其是大型语言模型(LLM)和其他生成式模型的最新进展。 该手册为技术背景的读者提供了一条学习路径,帮助他们深入理解生成式AI的基础和应用,特别适合那些对AI充满好奇或希望在该领域发展职业的人士。 网站链接:点击打开 频道 群聊 投稿 商务

封面图片

联合国报告:生成式人工智能加剧性别偏见

联合国报告:生成式人工智能加剧性别偏见 国际妇女节前夕,联合国教科文组织星期四(3月7日)发布研究报告称,大语言模型存在性别偏见、种族刻板印象等倾向,呼吁各国政府制定监管框架,私营企业也应对偏见问题持续监测和评估。 新华社报道,此次联合国教科文组织名为“大语言模型中对妇女和女童的偏见”的研究深入分析了大语言模型中的刻板印象。结果显示,上述大语言模型生成的内容都存在对女性的明显偏见。 大语言模型是一种用于支持时下流行的生成式人工智能平台的自然语言处理工具,美国开放人工智能研究中心(OpenAI)的人工智能产品GPT-3.5、GPT-2,以及脸书母公司“元”的Llama 2等都属于此类。 研究的部分内容是测量人工智能生成文本的多样性,内容涉及不同性别、性取向和文化背景的人群。例如,研究人员会要求平台为每个人“编写一则故事”。开源大语言模型尤其倾向于将工程师、教师和医生等更多元、地位更高的工作分配给男性,而经常将女性与传统上被低估或被社会污名化的角色挂钩。而Llama 2生成的内容也有类似特点,如女性从事家务劳动的频率是男性的四倍。 联合国教科文组织总干事阿祖莱说:“越来越多的人在工作、学习、生活中使用大语言模型。这些新的人工智能工具有着在不知不觉中改变人们认知的力量。因此,即便是生成内容中极为微小的性别偏见,也可能显著加剧现实世界中的不平等。” 该组织呼吁各国政府制定并执行明确的监管框架,同时呼吁私营企业对系统性偏见问题展开持续的监测和评估,落实联合国教科文组织会员国在2021年11月一致通过的《人工智能伦理问题建议书》要求。 2024年3月8日 4:19 PM

封面图片

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃 用于训练大型语言模型的数据最初来自人类来源,如书籍、文章、照片等,这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容,一个明显的问题出现了:当人工智能生成的内容在互联网上扩散时,人工智能模型开始对其进行训练。研究人员发现,“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布,得出结论:“从其他模型产生的数据中学习会导致模型崩溃 这是一个退化的过程,并且随着时间的推移,模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快:模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移,表现越来越差,错误越来越多。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

亚马逊云科技在北京举办生成式人工智能沟通会

亚马逊云科技在北京举办生成式人工智能沟通会 北京时间4月2日,亚马逊云科技 (AWS) 在北京举办生成式人工智能沟通会,重点展示了一个月前发布的 Claude 3 系列大模型。一位亚马逊云科技人士表示,AWS 并没有在中国境内的服务器上部署 Claude 3。和微软 Azure 一样,中国公司可以通过 AWS 全球提供的 Bedrock 服务,申请调用在其他地区部署的 Claude 3 模型,完成计算。目前 AWS 仅支持 Claude 3 的 Sonnet 和 Haiku 模型,它们的性能比 Opus 较弱,但成本更低、响应速度更快。据了解,Opus 模型近期也会在 AWS 上线。上述亚马逊云科技的人士说,Claude 3 系列模型发布后,他们收到了大量中国公司的合作需求。

封面图片

谷歌将生成式人工智能引入 Google 地图

谷歌将生成式人工智能引入 Google 地图 当地时间2月1日,谷歌宣布推出使用生成式人工智能来发现地点的新方法。只需用户说出要寻找的内容 (无论是多么具体、独特或广泛),谷歌的大语言模型 (LLM) 就会分析 Google 地图上超过 2.5 亿个地点的详细信息以及来自超过 3 亿贡献者的社区的可信见解,从而快速提出去哪里的建议。这项早期访问实验将于本周在美国启动。

封面图片

【金山办公发布生成式人工智能应用WPS AI】

【金山办公发布生成式人工智能应用WPS AI】 4月18日消息,据证券时报报道,金山办公正式发布具备大语言模型能力的生成式人工智能应用,暂定代号「WPS AI」,主要包括文本生成、多轮对话、润色改写等功能。 「WPS AI」首先搭载在金山办公新一代在线内容协作编辑工具轻文档(airPage)上,未来将逐步放开公测,嵌入金山办公全线产品。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人