OpenAI 于 5 月 13 日发布 GPT-4o 后,一些中文用户发现其 token 库中充满了垃圾词汇。普林斯顿大学博士生

OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了最长的100个中文token,发现大部分与赌博或色情有关,只有少数是常用词。大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品,但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇,并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。这些无效数据主要来源于垃圾和色情网站,这些网站通过劫持无关内容来提升搜索引擎排名,从而污染了GPT-4o的训练数据。目前尚不清楚其他语言是否受影响,但有用户报告韩语token库也有类似问题。(,竹新社)

相关推荐

封面图片

OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了

OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了最长的100个中文token,发现大部分与赌博或色情有关,只有少数是常用词。大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品,但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇,并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。这些无效数据主要来源于垃圾和色情网站,这些网站通过劫持无关内容来提升搜索引擎排名,从而污染了GPT-4o的训练数据。目前尚不清楚其他语言是否受影响,但有用户报告韩语token库也有类似问题。()

封面图片

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染OpenAI发布GPT-4o后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾邮件和色情短语。人类以单词为单位进行阅读,而LLM则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。多名研究过GPT-4o使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。“问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾邮件的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。“他们可能没有对中文进行适当的数据清理,”他说。——(节选)

封面图片

OpenAI GPT-4o 辅导孩子做数学题演示

OpenAIGPT-4o辅导孩子做数学题演示OpenAI邀请了可汗学院的可汗和他儿子一起使用了GPT-4o来辅导在可汗学院上遇到的数学题。在演示中ChatGPTApp可以获取iPad屏幕上的题目进行分析并作出应答,与GPT交流时可以随时打断GPT的对话。GPT-4o会给孩子基本概念和题目解题思路的启发,提供鼓励并且随时纠错,效果十分不错。关注频道@ZaiHuaPd频道投稿@ZaiHuabot

封面图片

OpenAI 免费推出世界上最强大的模型 GPT-4o

OpenAI免费推出世界上最强大的模型GPT-4oGPT-4O​mni就是AI竞技场中神秘的"gpt2-chatbot",公众评审结果为断崖式世界第一。与GPT-4Turbo相比,GPT-4o价格降低一半,速度提高2倍。为了确保人人能从AI中受益,OpenAI将向世界免费提供GPT-4o。不像曾经的多个模型合作方案,GPT-4o由单一神经网络同时处理文本、音频和图像。它可以区分多个特定说话者,识别音调或背景噪音,还可以自由切换声线,输出笑声、歌唱或表达情感。在视觉方面,GPT-4o可以指定细节生成/编辑图像,如按特定顺序堆叠不同颜色和不同数字的积木、将多角度照片合成为3D模型、使一致的人物/物体出现在不同的场景中,又或者以纹身的样式将整首古诗编辑到你的手臂上。关注频道@ZaiHuaPd频道投稿@ZaiHuabot

封面图片

GPT-4o在语音对话方面的特点

GPT-4o在语音对话方面的特点1.快速反应:与其前身相比,GPT-4o在语音转换和处理方面有显著的速度提升。它允许用户与AI进行更快速的语音交流,这提高了语音聊天的流畅度和自然度。2.情感识别:GPT-4o可以识别和反映语音语调和情绪,这使得它能够在语音交流中表现出各种情绪,从而更接近人类交流的感觉。3.多语言支持:它支持多种语言的语音输入和输出,这意味着它可以在语音对话中处理跨语言的交流。4.语音输入和输出:它可以通过语音输入和输出进行交互,这使得语音对话更加自然和便利。5.语音转文字和文字转语音的准确性:尽管有技术进步,但语音转文字和文字转语音的准确性仍然是一个挑战。这可能会影响语音聊天的质量。6.易用性:GPT-4o的语音交互功能使得语音聊天更加直观和易用,这让用户可以更简单地使用语音输入和输出。

封面图片

今天发布的GPT-4o以及ChatGPT产品的快速总结:#ai# #open#

今天发布的GPT-4o以及ChatGPT产品的快速总结:#ai##openai#GPT-4o(“o”代表“全能”)它可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。它可以在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。在英文和代码文本方面,它与GPT-4Turbo的性能相当,对非英语文本的文本有显著改进。同时在API方面更快速、价格更便宜50%。与现有模型相比,GPT-4o在视觉和音频理解方面表现特别出色。与GPT-4Turbo相比,GPT-4o速度提高了2倍,价格减半,限制速率提高了5倍。何时可用?GPT-4o的文本和图像功能今天开始在ChatGPT中推出。将在免费版中提供GPT-4o,并为Plus用户提供高达5倍的消息限制。将在未来几周内在ChatGPTPlus中推出带有GPT-4o的VoiceMode的新版本。开发者现在也可以通过API访问GPT-4o作为文本和视觉模型。公告地址:https://openai.com/index/hello-gpt-4o/

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人