GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染
GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染OpenAI发布GPT-4o后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾邮件和色情短语。人类以单词为单位进行阅读,而LLM则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。多名研究过GPT-4o使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。“问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾邮件的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。“他们可能没有对中文进行适当的数据清理,”他说。——(节选)