GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染 OpenAI 发布 GPT-4o 后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾内容和色情短语。人类以单词为单位进行阅读,而 LLM 则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取 ”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。 多名研究过 GPT-4o 使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。 “问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾信息的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。 “他们可能没有对中文进行适当的数据清理,”他说。 麻省理工科技评论 (节选) 汉语,你勃起吧! via oiii

相关推荐

封面图片

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染 OpenAI 发布 GPT-4o 后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾内容和色情短语。人类以单词为单位进行阅读,而 LLM 则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取 ”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。 多名研究过 GPT-4o 使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。 “问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾信息的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。 “他们可能没有对中文进行适当的数据清理,”他说。 (节选)

封面图片

GPT-4o的中文语料训练数据被 #赌博 诈骗和 #色情 内容污染

封面图片

OpenAI 发布替代 GPT-3.5 的 GPT-4o mini

OpenAI 发布替代 GPT-3.5 的 GPT-4o mini OpenAI 发布了 GPT-4o 模型的小型版本 GPT-4o mini,它将取代 GPT-3.5 Turbo 提供给所有 ChatGPT 用户,包括免费和付费用户。GPT-4o mini 类似 GPT-4o,支持多模,能解释图像、文本和音频,能生成图像。GPT-4o mini 支持 128K 上下文令牌,其数据截至 2023 年 10 月,它的 API 费用比 GPT-3.5 Turbo 低 60%,每百万输入令牌 15 美分,每百万输出令牌 60 美分。GPT-4o mini 将使用名为 instruction hierarchy 的新技术,限制了越狱。 via Solidot

封面图片

GPT-4o与GPT-4的区别

GPT-4o与GPT-4的区别 1. 性能提升:GPT-4o在性能上进行了显著提升,特别是在文本、语音和视觉处理方面。它能够更快地响应用户的输入,提供更自然和流畅的交互体验。 2. 响应速度:GPT-4o在响应速度上进行了优化,能够以更短的延迟时间处理用户的语音输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。 3. 多模态交互:GPT-4o支持更高级的多模态交互,能够处理文本、音频和图像的任意组合输入,并生成对应的任意组合输出。这使得GPT-4o在交互性上更加灵活和强大。 4. 安全性:GPT-4o在设计中内置了跨模式的安全性,并通过与外部专家的合作,提高了与模型互动的安全性。 5. 成本和效率:GPT-4o在非英语文本上的性能有显著提高,同时API速度快,速率限制高出5倍,成本降低了50%。 6. 免费提供:与以往的模型不同,GPT-4o将免费提供给所有用户使用,而付费用户可以享受更高的调用额度。 7. 语音交互模式:GPT-4o采用了全新的技术,让聊天机器人的语音交互模式更加自然和逼真,能够根据指令调整说话时的语气,甚至唱歌。 8. 优化和迭代:GPT-4o通过训练时的优化和数据的迭代更新,提升了模型在特定任务和场景下的表现。 9. 风险管理:OpenAI认识到GPT-4o的音频模式存在风险,因此目前公开的是文本和图像输入以及文本输出,未来将围绕技术基础设施、训练后的可用性、发布其他模式所需的安全性开展工作。

封面图片

GPT-4o 手把手教老外说中文,一个敢教一个敢学

GPT-4o 手把手教老外说中文,一个敢教一个敢学 中文母语者:教我同事说"你好hǎo" GPT-4o:跟我念"泥~耗hào" 英语母语者:"泥嚎háo"? 右边听到瞬间人都不怎么动了,AI 还不忘夸一句天赋异禀。 OpenAI via 匿名

封面图片

OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了

OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了最长的100个中文token,发现大部分与赌博或色情有关,只有少数是常用词。 大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品,但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇,并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。 这些无效数据主要来源于垃圾和色情网站,这些网站通过劫持无关内容来提升搜索引擎排名,从而污染了GPT-4o的训练数据。 目前尚不清楚其他语言是否受影响,但有用户报告韩语token库也有类似问题。 (MIT科技评论)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人