GPT-4o的中文词元训练数据被发现受到垃圾信息和色情内容的污染(机翻)#慢讯

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染OpenAI发布GPT-4o后不久，一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲，它用来解析文本的词块充满了垃圾邮件和色情短语。人类以单词为单位进行阅读，而LLM则以词块(Token)为单位进行阅读，词块是句子中的不同单位，具有一致且重要的含义。模型编码的词块越多，“读取”句子的速度就越快，消耗的计算能力就越少，从而降低了响应的成本。多名研究过GPT-4o使用的新词块库的研究人员表示，中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块，例如三个字长的中文单词，也在很大程度上反映了这些主题。“问题很明显，用于训练[分词器]的语料库不干净。英文词块看起来不错，但中文词块就不行了，”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾邮件的情况并不罕见，但通常会在使用数据之前花费大量精力来清理数据。“他们可能没有对中文进行适当的数据清理，”他说。——（节选）

GPT-4o的中文语料训练数据被#赌博诈骗和#色情内容污染https://www.bannedbook.org/bnews/it

gpt-4o

GPT-4o启动！

OpenAI 发布 GPT-4o mini

OpenAI发布GPT-4ominiOpenAI推出其最新的AI模型“GPT-4omini”。该模型被称为目前最具能力且成本效益最高的小型模型，并计划未来集成图像、视频和音频功能。GPT-4omini是GPT-4o的衍生版本。将在本周四向ChatGPT免费用户、ChatGPTPlus和团队用户开放，下周向企业用户开放。关注频道@ZaiHuaPd投稿爆料@ZaiHuabot

OpenAI 推出 GPT-4o Mini 模型

OpenAI推出GPT-4oMini模型OpenAI将于周四晚些时候推出一款新的AI模型“GPT-4omini”，该公司称新发布的模型是“当今最强大、最具成本效益的小型模型”，这款迷你AI模型是GPT-4o的一个分支，并计划稍后将图像、视频和音频集成到其中。GPT-4omini将于周四晚些时候向ChatGPT免费用户以及ChatGPTPlus和Team订阅者开放，并将于下周向ChatGPTEnterprise用户开放。——

相关推荐

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被#赌博诈骗和#色情内容污染https://www.bannedbook.org/bnews/it

gpt-4o

GPT-4o启动！

OpenAI 发布 GPT-4o mini

OpenAI 推出 GPT-4o Mini 模型