GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染OpenAI发布GPT-4o后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾邮件和色情短语。人类以单词为单位进行阅读,而LLM则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。多名研究过GPT-4o使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。“问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾邮件的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。“他们可能没有对中文进行适当的数据清理,”他说。——(节选)

相关推荐

封面图片

GPT-4o的中文语料训练数据被#赌博诈骗和#色情内容污染https://www.bannedbook.org/bnews/it

封面图片

OpenAI 于 5 月 13 日发布 GPT-4o 后,一些中文用户发现其 token 库中充满了垃圾词汇。普林斯顿大学博士生

OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了最长的100个中文token,发现大部分与赌博或色情有关,只有少数是常用词。大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品,但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇,并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。这些无效数据主要来源于垃圾和色情网站,这些网站通过劫持无关内容来提升搜索引擎排名,从而污染了GPT-4o的训练数据。目前尚不清楚其他语言是否受影响,但有用户报告韩语token库也有类似问题。(,竹新社)

封面图片

OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了

OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了最长的100个中文token,发现大部分与赌博或色情有关,只有少数是常用词。大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品,但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇,并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。这些无效数据主要来源于垃圾和色情网站,这些网站通过劫持无关内容来提升搜索引擎排名,从而污染了GPT-4o的训练数据。目前尚不清楚其他语言是否受影响,但有用户报告韩语token库也有类似问题。()

封面图片

今天发布的GPT-4o以及ChatGPT产品的快速总结:

今天发布的GPT-4o以及ChatGPT产品的快速总结:GPT-4o(“o”代表“全能”)它可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。它可以在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。在英文和代码文本方面,它与GPT-4Turbo的性能相当,对非英语文本的文本有显著改进。同时在API方面更快速、价格更便宜50%。与现有模型相比,GPT-4o在视觉和音频理解方面表现特别出色。与GPT-4Turbo相比,GPT-4o速度提高了2倍,价格减半,限制速率提高了5倍。何时可用?GPT-4o的文本和图像功能今天开始在ChatGPT中推出。将在免费版中提供GPT-4o,并为Plus用户提供高达5倍的消息限制。将在未来几周内在ChatGPTPlus中推出带有GPT-4o的VoiceMode的新版本。开发者现在也可以通过API访问GPT-4o作为文本和视觉模型。

封面图片

今天发布的GPT-4o以及ChatGPT产品的快速总结:#ai# #open#

今天发布的GPT-4o以及ChatGPT产品的快速总结:#ai##openai#GPT-4o(“o”代表“全能”)它可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。它可以在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。在英文和代码文本方面,它与GPT-4Turbo的性能相当,对非英语文本的文本有显著改进。同时在API方面更快速、价格更便宜50%。与现有模型相比,GPT-4o在视觉和音频理解方面表现特别出色。与GPT-4Turbo相比,GPT-4o速度提高了2倍,价格减半,限制速率提高了5倍。何时可用?GPT-4o的文本和图像功能今天开始在ChatGPT中推出。将在免费版中提供GPT-4o,并为Plus用户提供高达5倍的消息限制。将在未来几周内在ChatGPTPlus中推出带有GPT-4o的VoiceMode的新版本。开发者现在也可以通过API访问GPT-4o作为文本和视觉模型。公告地址:https://openai.com/index/hello-gpt-4o/

封面图片

银河证券:OpenAI 发布 GPT-4o 模型,易用性大幅提升

银河证券:OpenAI发布GPT-4o模型,易用性大幅提升银河证券研报表示,北京时间2024年5月14日凌晨,OpenAI发布GPT-4的升级更新版本GPT-4o。随着2023年以来各种人工智能大模型的不断迭代更新,目前主流人工智能大模型的智能水平已经达到了相当的水平。GPT-4o的发布,标志着人工智能大模型在便利性和易用性上实现了突破,考虑到后续随着GPT-4o免费对用户开放,用户数量的快速增长确定性较高,银河证券认为,人工智能的对C端的影响力有望增强,看好相关垂类应用的发展前景。建议关注与C端用户体验密切相关的行业:1)AI+游戏:游戏内NPC互动、互动影游;2)AI+教育:智教系统、虚拟实验室;3)AI+办公:内容生成、非结构化数据处理;4)AI+出版:校对修改、智慧发行;5)AI+专业咨询:情感陪护,应用场景专业解答等。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人