OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了

OpenAI于5月13日发布GPT-4o后,一些中文用户发现其token库中充满了垃圾词汇。普林斯顿大学博士生蔡天乐(音)分析了最长的100个中文token,发现大部分与赌博或色情有关,只有少数是常用词。 大型语言模型通过分词解析文本。GPT-4o的新分词工具在处理多语言任务上优于前代产品,但其中文token库因数据清理不足而被污染。这导致GPT-4o的大语言模型无法正确解析这些词汇,并可能被用来绕过OpenAI的安全措施。前代的GPT-3.5和GPT-4则没有这种问题。 这些无效数据主要来源于垃圾和色情网站,这些网站通过劫持无关内容来提升搜索引擎排名,从而污染了GPT-4o的训练数据。 目前尚不清楚其他语言是否受影响,但有用户报告韩语token库也有类似问题。 (MIT科技评论)

相关推荐

封面图片

OpenAI 发布替代 GPT-3.5 的 GPT-4o mini

OpenAI 发布替代 GPT-3.5 的 GPT-4o mini OpenAI 发布了 GPT-4o 模型的小型版本 GPT-4o mini,它将取代 GPT-3.5 Turbo 提供给所有 ChatGPT 用户,包括免费和付费用户。GPT-4o mini 类似 GPT-4o,支持多模,能解释图像、文本和音频,能生成图像。GPT-4o mini 支持 128K 上下文令牌,其数据截至 2023 年 10 月,它的 API 费用比 GPT-3.5 Turbo 低 60%,每百万输入令牌 15 美分,每百万输出令牌 60 美分。GPT-4o mini 将使用名为 instruction hierarchy 的新技术,限制了越狱。 via Solidot

封面图片

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染 OpenAI 发布 GPT-4o 后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾内容和色情短语。人类以单词为单位进行阅读,而 LLM 则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取 ”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。 多名研究过 GPT-4o 使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。 “问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾信息的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。 “他们可能没有对中文进行适当的数据清理,”他说。 (节选)

封面图片

OpenAI推出新旗舰模型GPT-4o

OpenAI推出新旗舰模型GPT-4o GPT-4o 是面向未来人机交互范式的全新大模型,具有文本、语音、图像三种模态的理解力,反应极快还带有感情,也很通人性。 GPT-4o面向所有用户、包括免费用户,最快232毫秒响应音频输入,平均响应时间和人类相似;相比GPT-4 Turbo速度快两倍,成本降低50%,API速率限制提高五倍。

封面图片

OpenAI 免费推出世界上最强大的模型 GPT-4o

OpenAI 免费推出世界上最强大的模型 GPT-4o GPT-4o ("o"代表"omni") 就是 AI 竞技场中神秘的"gpt2-chatbot",公众评审结果为断崖式世界第一。与 GPT-4 Turbo 相比,GPT-4o 价格降低一半,速度提高 2 倍。为了确保人人能从 AI 中受益,OpenAI 将向世界免费提供 GPT-4o。 不像曾经的多个模型合作方案,GPT-4o 由单一神经网络同时处理文本、音频和图像。它可以区分多个特定说话者,识别音调或背景噪音,还可以自由切换声线,输出笑声、歌唱或表达情感。 在视觉方面,GPT-4o 可以指定细节生成/编辑图像,如按特定顺序堆叠不同颜色和不同数字的积木、将多角度照片合成为 3D 模型、使一致的人物/物体出现在不同的场景中,又或者以纹身的样式将整首古诗编辑到你的手臂上。 OpenAI 冲浪TV | 没品笑话 福利视频 | SOSO福利搜索 啪啪AV每晚激情直播

封面图片

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染 OpenAI 发布 GPT-4o 后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾内容和色情短语。人类以单词为单位进行阅读,而 LLM 则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取 ”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。 多名研究过 GPT-4o 使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。 “问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾信息的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。 “他们可能没有对中文进行适当的数据清理,”他说。 麻省理工科技评论 (节选) 汉语,你勃起吧! via oiii

封面图片

更像人类的GPT-4o:OpenAI的《Her》时刻

更像人类的GPT-4o:OpenAI的《Her》时刻 GPT-4o在保持GPT-4级别的智能的同时,对文本、视觉和音频功能进行了改进。OpenAI首席技术官(CTO)Mira Murati及其员工Mark Chen和Barret Zoph在现场演示时展示了新的音频对话和视觉理解能力。OpenAI声称,GPT-4o对音频输入的平均反应时间约为320毫秒。根据2009年的一项研究,这与人类在对话中的反应时间相似,而之前的模型通常要延迟2-3秒时间。除了响应速度,GPT-4o似乎很容易捕捉到情绪,并根据用户的要求调整语气和风格,甚至还在回应中加入了音效、笑声和歌声。GPT-4o更像人类GPT-4o在理解人类交流方面迈出了重要的一步,用户可以用一种接近自然的方式与其交谈。它伴随着现实世界中几乎所有的倾向,比如打断、理解语气,甚至意识到自己犯了一个错误。在第一次现场演示中,主持人要求GPT-4o对他的呼吸技巧做出反馈。他对着手机深深地吸了一口气,而ChatGPT则诙谐地回应道:“你不是吸尘器。”它建议使用一种速度较慢的技术,展示其理解和回应人类细微差别的能力。除了具有幽默感,ChatGPT也会改变回应的语气,在传达“思想”的同时用不同的语调来完成。就像人类对话一样,你可以打断它的对话并纠正它,让它做出反应或停止说话。你甚至可以要求它以某种语气、风格或机器人的声音来说话。此外,它甚至还可以提供翻译服务。在现场演示中,舞台上的两名演讲者,一名说英语,一名说意大利语,通过Chat GPT-4o的翻译进行对话。它可以快速将意大利语翻译成英语,然后无缝地将英语回复翻译回意大利语。据悉,Chat GPT-4o在50多种语言的速度和质量上都有所提高。OpenAI表示,这些语言覆盖了世界97%的人口。除了语音理解,Chat GPT-4o还可以理解视觉效果。例如,对于视频中的一道方程题,它可以指导你如何求解。另外,它还可以观看现场自拍,并提供描述,包括你的穿着,以及情绪。在演示中,Chat GPT-4o表示,主持人看起来很开心。在整个演示过程中,Chat GPT-4o工作得很快,在理解方面并不费力,也没有提出询问。与输入查询相比,与Chat GPT-4o的交流更自然。你可以自然地对着手机说话,并得到想要的回应,而不是用谷歌去搜索。电影《Her》中的萨曼莎此时,如果想到了《Her》(一部和AI虚拟人萨曼莎谈恋爱的电影),或者其他与AI相关的未来主义反乌托邦电影,你不是唯一的一个。以如此自然的方式与Chat GPT-4o交谈,本质上就是OpenAI的《Her》时刻。考虑到它将在移动应用程序和桌面应用程序上免费推出,许多人可能很快就会拥有自己的《Her》时刻。虽然并未在直播演示中现身,但OpenAI CEO 萨姆·奥特曼(Sam Altman)对这次演示做了重要的总结,称GPT-4o给人的感觉就像电影中的AI。他说:“新的语音和视频模型GPT-4o是我用过的最好的计算机界面,这感觉就像电影中的AI。而且,对我来说,它真实的仍然有点令人惊讶,达到了人类级别的响应速度和表现。最初的ChatGPT显示出了语言界面的可能性,但GPT-4o这个新事物感觉本质上有所不同,它快速、智能、有趣、自然、实用。”“对我来说,与电脑交谈从来都不是很自然的感觉;但现不同了,它变得自然了。随着将来不断地完善,我真的看到了一个令人兴奋的未来,我们能使用计算机做比以往任何时候都多的事情。”奥特曼还称,在创建OpenAI时,最初的想法是创造AI,并用它来为世界创造各种裨益。但如今,创造AI后,希望让其他人使用它来创造各种令人惊叹的东西,所有人都会从中受益。奥特曼还表示:“OpenAI是一家企业,会找到很多收费的东西,这将帮助我们为数十亿人提供免费的、出色的AI服务。”新的安全风险这场令人印象深刻的语音和视觉演示,可能只是触及了Chat GPT-4o各种可能性的皮毛。尽管其总体性能,以及在各种环境中的日常表现仍有待观察,但很明显,通过现场演示可以看出,Chat GPT-4o已经对谷歌和苹果的未来挑战做好了准备。OpenAI称:“Chat GPT-4o是我们第一个结合了上述所有技术的模型,我们目前只是触及到探索该模型的功能,及其局限性的皮毛。”Murati承认,Chat GPT-4o的实时音频和图像能力在安全方面带来了新的挑战。她表示,OpenAI将继续研究安全性,并在未来几周的迭代部署期间征求测试用户的反馈。OpenAI称:“Chat GPT-4o还与社会心理学、偏见和公平性等领域的70多名外部专家进行了广泛的合作,以识别新模型可能导致或放大的风险。我们利用这些经验来加强安全干预措施,以提高与Chat GPT-4o交互的安全性。一旦新的风险被发现,我们将采取措施降低它们。”GPT-4o前景展望在Google I/O大会开始的前一天,OpenAI发布了Chat GPT-4o,让我们见识到了人们想要的真正实用的AI体验。如果传闻中的与苹果的合作成为现实,那么Siri将如虎添翼。对于谷歌而言,几乎可以肯定的是,将在5月14日的I/O大会上展示其最新的AI技术。它能足以抵抗Chat GPT-4o吗?在不到30分钟的演讲中,OpenAI无法对Chat GPT-4o进行更多的现场演示。幸运的是,它将在未来一周向用户推出,且不需要支付费用。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人