GPT-4o 17人Omni金牌团队首揭秘 清北上交中科大6位华人领衔

GPT-4o 17人Omni金牌团队首揭秘 清北上交中科大6位华人领衔 就在刚刚,GPT-4o的关键团队信息,也被公布了出来。就是这个名为“omni”的团队,发挥出了不可思议的潜力,让OpenAI的首个原生全多模态模型成为可能。Sam Altman盛赞,如果没有团队负责人Prafulla Dhariwal长期以来的远见、才智、信念和决心,就没有GPT-4o。而整个团队的努力,才使得他所期待的人机交互革命成为现实。OpenAI联创Greg Brockman,也表扬了这位肩负着整个团队使命的负责人。多亏了Prafulla Dhariwal“建立全能大模型”的信念,并且在过去的18个月中联合了OpenAI的许多团队,在多个团队的通力合作下,GPT-4o才得以诞生。根据负责人的说法,其实OpenAI早就有意打造这样一个Omni大模型了。然而一年多之前,团队曾经做过多次多模态的尝试,却没有一次能让最大的GPT成功地完成多模态运行。幸运的是,团队成员齐心协力,用出色的能力攻克了种种能力,使GPT-4o成为可能。网友锐评:“你们确实处于创新的前沿,执行水平达到了大型科技巨头梦寐以求的水平。”而如此惊艳的演示,竟然是一个不到20人的小团队打造出来的。Omni团队揭秘接下来,一起看看打造OpenAI首个原生多模态GPT-4o背后团队成员,都有谁?负责人Prafulla Dhariwal领导GPT-4o开发的负责人Prafulla Dhariwal,是一位印度小哥。他于2017年获得了麻省理工学院的计算机科学学士学位。毕业前夕,Dhariwal就加入了OpenAI(那时OpenAI仅成立一年),并在17年正式成为研究科学家。至今,Dhariwal任职OpenAI 7年,可以说,他见证了这家初创公司的成长全过程。在此期间,Dhariwal参与了诸多重磅的研究。根据LinkedIn个人主页,他将发表论文的领域分类为生成式模型、无监督学习、Scaling Law、定理证明、强化学习、量子复杂性。其中包括DALL·E 3、DALL·E 2,模型一致性等,还共同提出了著名的“Scaling Law”。值得一提的是,Dhariwal曾在高中期间参加了几次国际奥林匹克竞赛。他是2012年IMO竞赛的金牌得主,也是IAO(国际天文学奥林匹克竞赛)、IPhO(国际物理奥林匹克)的金牌获得者。有网友称,Prafulla Dhariwal从高中起就是我的灵感来源。他当年为印度赢得了IAO、IPhO和IMO的金牌,并在OpenAI大学毕业后从事非常酷的VAE、Gans、DDPM、一致性模型等项目。6位华人Li JingLi Jing在团队中发挥的作用是,让大家拥有令人惊叹的图像/3D生成。此前,他为Dall-E 3、Sora、GPT-4o都做出过贡献。他曾在Meta做过2年的博后研究员,随后进入OpenAI成为全职研究员。虽然才入职OpenAI不到两年,但他已参与过多个OpenAI的重磅研究了。他在北京大学获得物理学学士学位,在MIT获得物理学博士学位。Casey ChuCasey Chu是团队的老员工了。他从2020年4月就入职了OpenAI,如今已经是4年的“元老”了。他本科在哈维·穆德学院获得数学学士学位,在斯坦福大学获得计算数学硕士学位。Mark ChenMark Chen是OpenAI的前沿研究主管,并且还是美国IOI队的教练。在团队漫长的研究中,Mark Chen是大家奋斗的支柱。他已是OpenAI五年多的老员工。此前曾在微软、Trading实习,在哈佛做访问学者,在量化研究工作过5年,并且成为合伙人。他毕业于MIT数学-计算机专业。Jiahui Yu(于佳慧)Jiahui Yu负责带领OpenAI的感知团队。此前,他曾担任Google Brain和Google DeepMind的高级研究科学家和经理。他的研究领域包括序列建模(语言、语音、视频、金融数据)、计算机视觉、生成模型和高性能计算。在研究生期间,他在微软亚研院、旷视科技、Adobe Research、Snap Research、Jump Trading、百度研究院、NVIDIA Research和Google Brain都有过实习经历。他本科毕业于中国科技大学少年班,获得计算机学士学位。博士毕业于伊利诺伊大学香槟分校。Huiwen ChangHuiwen Chang在OpenAI已经工作一年。此前她曾在Google工作过5年,在微软亚研院、Adobe、Facebook有过实习经历。她在清华大学计算机科学实验班(姚班)取得学士学位,然后在普林斯顿大学取得博士学位。Yu Zhang他在OpenAI工作了8个月。他此前曾在GoogleDeepMind工作过6年,还在微软亚研院、微软实习过。他本科在上海交通大学取得计算机学士学位,在MIT取得博士学位。其他关键成员James BetkerJames Betker在这个团队中负责得非常全面,应有尽有,包括图像、音频、数据、集成、后训练(post-training)。这是从Google跳槽至OpenAI的大咖。在加入OpenAI之前,Betker曾在Google担任了3年的软件工程师。此外,他还在2011年加入了Garmin International,现任职高级软件工程师。他曾获得了UCSB的计算机科学动查看学士学位,与此同时,在2005-2009年期间,还是在学校担任4年的软件工程师。Jamie KirosJamie Kiros让GPT-4获得当前最佳的视觉感知能力,做出了非凡的成绩。此前,他曾在Google工作过3年。他在多伦多大学取得计算机博士学位。Rowan ZellersRowan Zellers在Omni团队中的贡献是,让OpenAI可以像人一样自然地看到视频。毕业后,他加入了艾伦人工智能研究所(AI2)成为研究实习生。2022年6月,成为OpenAI的一名技术人员。Zellers曾获得了哈维·穆德学院(Harvey Mudd College)的数学和计算机科学的学士学位,以及华盛顿大学计算机科学博士学位。Alexis Conneau在加入OpenAI之前,Alexis Conneau就已经提出了“Her”(视觉模型)的理念,并且坚持不懈地执行并实现了它。目前,Conneau是OpenAI的语音AGI负责人。进入他的个人主页,就知道Conneau对Her有多么痴迷了。Conneau在加入OpenAI之前,曾在Meta、Google担任过研究科学家,有着9年的自然语言深度学习的经验。华盛顿邮报曾对Conneau进行了个人专题报道Alexis Conneau曾帮助Meta(Facebook)和Google打造了以惊人的精确性理解数十种语言的AI系统。在Meta期间,Conneau团队推进了机器学识算法,将语言用数字抽象形式表现的能力,最终训出能够处理同步语言的AI。比如XLM-R模型可以处理100+语言,其准确性几乎与单一语言模型一致。Conneau在Meta做的最后一项工作是Wave2vec-U。这是一种无人监督的语音识别系统,可以从音频中读取单词。此外,他还发明了一种算法XLm-Roberta,能够阅读各种语言的海量数据。这项研究也成为他被引最高的成果。他曾获得了Facebook AI Research的计算机科学博士学位,在巴黎-萨克雷高等师范学校获得了机器学习硕士学位,以及巴黎综合理工学院获得了数学硕士学位。Gabriel GohGabriel Goh和接下来要介绍的Ishaan Gulrajani,在团队中主要贡献是,提出了一系列相关的“Scaling Law”的工作。这样当所有这些模态(视觉、语音等)汇集在一起时,模型便可以擅长处理一切事物!Gabriel Goh也是OpenAI 5年多的老员工,此前曾在苹果工作1年半。他在英属哥伦比亚大学取得硕士学位,在加州大学戴维斯分校取得了数学专业博士学位。CBC曾报道过Gabriel Goh到OpenAI后,在2021年设计的CLIP系统。他参与的这项研究,揭示了CLIP无法正确识别图像,会把放着iPod字样的苹果识别为iPod。Ishaan GulrajaniIshaan Gulrajani目前是OpenAI的研究员。根据OpenReview的介绍,他曾在Google和Meta工作过。并在MIT获得学士学位,以及在斯坦福大学获得博士学位。Alex NicholAlex Nichol在团队中主攻3D图像生成,也是DALL·E 2的共同发明者。此前,他一直是一位自由职业者。随后,在2107年加入了OpenAI任技术研究员,中间还离职有近一年时间,并在2020年5月再次入职。比如,在GPT-4o官方报博客中的演示,它可以生成一致的试图,重建复杂3D模型。这些所展示出的成果,离不开Nichol的贡献。Heewoo Jun与Nichol一样,Heewoo Jun在团队中也在负责图像、3D生成。根据OpenReview介绍,他曾在2015-2019年间在百度(美国... PC版: 手机版:

相关推荐

封面图片

OpenAI 免费推出世界上最强大的模型 GPT-4o

OpenAI 免费推出世界上最强大的模型 GPT-4o GPT-4o ("o"代表"omni") 就是 AI 竞技场中神秘的"gpt2-chatbot",公众评审结果为断崖式世界第一。与 GPT-4 Turbo 相比,GPT-4o 价格降低一半,速度提高 2 倍。为了确保人人能从 AI 中受益,OpenAI 将向世界免费提供 GPT-4o。 不像曾经的多个模型合作方案,GPT-4o 由单一神经网络同时处理文本、音频和图像。它可以区分多个特定说话者,识别音调或背景噪音,还可以自由切换声线,输出笑声、歌唱或表达情感。 在视觉方面,GPT-4o 可以指定细节生成/编辑图像,如按特定顺序堆叠不同颜色和不同数字的积木、将多角度照片合成为 3D 模型、使一致的人物/物体出现在不同的场景中,又或者以纹身的样式将整首古诗编辑到你的手臂上。 OpenAI 冲浪TV | 没品笑话 福利视频 | SOSO福利搜索 啪啪AV每晚激情直播

封面图片

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染 OpenAI 发布 GPT-4o 后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾内容和色情短语。人类以单词为单位进行阅读,而 LLM 则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取 ”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。 多名研究过 GPT-4o 使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。 “问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾信息的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。 “他们可能没有对中文进行适当的数据清理,”他说。 麻省理工科技评论 (节选) 汉语,你勃起吧! via oiii

封面图片

更像人类的GPT-4o:OpenAI的《Her》时刻

更像人类的GPT-4o:OpenAI的《Her》时刻 GPT-4o在保持GPT-4级别的智能的同时,对文本、视觉和音频功能进行了改进。OpenAI首席技术官(CTO)Mira Murati及其员工Mark Chen和Barret Zoph在现场演示时展示了新的音频对话和视觉理解能力。OpenAI声称,GPT-4o对音频输入的平均反应时间约为320毫秒。根据2009年的一项研究,这与人类在对话中的反应时间相似,而之前的模型通常要延迟2-3秒时间。除了响应速度,GPT-4o似乎很容易捕捉到情绪,并根据用户的要求调整语气和风格,甚至还在回应中加入了音效、笑声和歌声。GPT-4o更像人类GPT-4o在理解人类交流方面迈出了重要的一步,用户可以用一种接近自然的方式与其交谈。它伴随着现实世界中几乎所有的倾向,比如打断、理解语气,甚至意识到自己犯了一个错误。在第一次现场演示中,主持人要求GPT-4o对他的呼吸技巧做出反馈。他对着手机深深地吸了一口气,而ChatGPT则诙谐地回应道:“你不是吸尘器。”它建议使用一种速度较慢的技术,展示其理解和回应人类细微差别的能力。除了具有幽默感,ChatGPT也会改变回应的语气,在传达“思想”的同时用不同的语调来完成。就像人类对话一样,你可以打断它的对话并纠正它,让它做出反应或停止说话。你甚至可以要求它以某种语气、风格或机器人的声音来说话。此外,它甚至还可以提供翻译服务。在现场演示中,舞台上的两名演讲者,一名说英语,一名说意大利语,通过Chat GPT-4o的翻译进行对话。它可以快速将意大利语翻译成英语,然后无缝地将英语回复翻译回意大利语。据悉,Chat GPT-4o在50多种语言的速度和质量上都有所提高。OpenAI表示,这些语言覆盖了世界97%的人口。除了语音理解,Chat GPT-4o还可以理解视觉效果。例如,对于视频中的一道方程题,它可以指导你如何求解。另外,它还可以观看现场自拍,并提供描述,包括你的穿着,以及情绪。在演示中,Chat GPT-4o表示,主持人看起来很开心。在整个演示过程中,Chat GPT-4o工作得很快,在理解方面并不费力,也没有提出询问。与输入查询相比,与Chat GPT-4o的交流更自然。你可以自然地对着手机说话,并得到想要的回应,而不是用谷歌去搜索。电影《Her》中的萨曼莎此时,如果想到了《Her》(一部和AI虚拟人萨曼莎谈恋爱的电影),或者其他与AI相关的未来主义反乌托邦电影,你不是唯一的一个。以如此自然的方式与Chat GPT-4o交谈,本质上就是OpenAI的《Her》时刻。考虑到它将在移动应用程序和桌面应用程序上免费推出,许多人可能很快就会拥有自己的《Her》时刻。虽然并未在直播演示中现身,但OpenAI CEO 萨姆·奥特曼(Sam Altman)对这次演示做了重要的总结,称GPT-4o给人的感觉就像电影中的AI。他说:“新的语音和视频模型GPT-4o是我用过的最好的计算机界面,这感觉就像电影中的AI。而且,对我来说,它真实的仍然有点令人惊讶,达到了人类级别的响应速度和表现。最初的ChatGPT显示出了语言界面的可能性,但GPT-4o这个新事物感觉本质上有所不同,它快速、智能、有趣、自然、实用。”“对我来说,与电脑交谈从来都不是很自然的感觉;但现不同了,它变得自然了。随着将来不断地完善,我真的看到了一个令人兴奋的未来,我们能使用计算机做比以往任何时候都多的事情。”奥特曼还称,在创建OpenAI时,最初的想法是创造AI,并用它来为世界创造各种裨益。但如今,创造AI后,希望让其他人使用它来创造各种令人惊叹的东西,所有人都会从中受益。奥特曼还表示:“OpenAI是一家企业,会找到很多收费的东西,这将帮助我们为数十亿人提供免费的、出色的AI服务。”新的安全风险这场令人印象深刻的语音和视觉演示,可能只是触及了Chat GPT-4o各种可能性的皮毛。尽管其总体性能,以及在各种环境中的日常表现仍有待观察,但很明显,通过现场演示可以看出,Chat GPT-4o已经对谷歌和苹果的未来挑战做好了准备。OpenAI称:“Chat GPT-4o是我们第一个结合了上述所有技术的模型,我们目前只是触及到探索该模型的功能,及其局限性的皮毛。”Murati承认,Chat GPT-4o的实时音频和图像能力在安全方面带来了新的挑战。她表示,OpenAI将继续研究安全性,并在未来几周的迭代部署期间征求测试用户的反馈。OpenAI称:“Chat GPT-4o还与社会心理学、偏见和公平性等领域的70多名外部专家进行了广泛的合作,以识别新模型可能导致或放大的风险。我们利用这些经验来加强安全干预措施,以提高与Chat GPT-4o交互的安全性。一旦新的风险被发现,我们将采取措施降低它们。”GPT-4o前景展望在Google I/O大会开始的前一天,OpenAI发布了Chat GPT-4o,让我们见识到了人们想要的真正实用的AI体验。如果传闻中的与苹果的合作成为现实,那么Siri将如虎添翼。对于谷歌而言,几乎可以肯定的是,将在5月14日的I/O大会上展示其最新的AI技术。它能足以抵抗Chat GPT-4o吗?在不到30分钟的演讲中,OpenAI无法对Chat GPT-4o进行更多的现场演示。幸运的是,它将在未来一周向用户推出,且不需要支付费用。 ... PC版: 手机版:

封面图片

OpenAI 发布替代 GPT-3.5 的 GPT-4o mini

OpenAI 发布替代 GPT-3.5 的 GPT-4o mini OpenAI 发布了 GPT-4o 模型的小型版本 GPT-4o mini,它将取代 GPT-3.5 Turbo 提供给所有 ChatGPT 用户,包括免费和付费用户。GPT-4o mini 类似 GPT-4o,支持多模,能解释图像、文本和音频,能生成图像。GPT-4o mini 支持 128K 上下文令牌,其数据截至 2023 年 10 月,它的 API 费用比 GPT-3.5 Turbo 低 60%,每百万输入令牌 15 美分,每百万输出令牌 60 美分。GPT-4o mini 将使用名为 instruction hierarchy 的新技术,限制了越狱。 via Solidot

封面图片

外媒评论GPT-4o:OpenAI面临双重压力 新产品全力扩张用户群

外媒评论GPT-4o:OpenAI面临双重压力 新产品全力扩张用户群 《华尔街日报》:竞争加剧之际,OpenAI推出新产品和功能以吸引用户OpenAI发布了其人工智能旗舰系统更具成本效益的版本,并新增了一款改进的语音助手,使其操作更为便捷。在与其他科技巨头的竞争中,OpenAI正通过推出多样的新产品和功能来吸引用户。OpenAI的首席技术官米拉·穆拉蒂(Mira Murati)介绍说,这款名为GPT-4o的新人工智能模型不仅能处理文本,还能更好地解析图像和视频,并能通过语音与用户进行实时互动。与市场上其他语音助手不同,这款新的语音功能允许用户在交谈中中断它,并且模型能够迅速作出反应。GPT-4o的发布体现了OpenAI及其他科技企业在人工智能系统的开发上巨大的投资和努力,现在他们正寻求通过扩大用户基础来为其生成式人工智能技术带来经济收益。OpenAI首席执行官萨姆·奥特曼(Sam Altman)将这款新产品比作电影中常见的人工智能工具。他在去年的一次讲话中提到,他和OpenAI的其他高层从2013年的电影《她》(Her)中汲取了灵感,这部电影讲述了一个男人与他的语音助手之间的爱情故事。他在一篇博客文章中表示,尽管ChatGPT的原版为人们如何使用语言与计算机交互提供了新的视角,但GPT-4o带来的体验“从内心深处就与众不同”。他说:“这就像电影中的人工智能一样真实,坦白说,我还是有点惊讶。达到接近人类的反应速度和表达能力,是一个重大的突破。”之前,OpenAI推出的名为“语音模式”的功能,虽然结合了三个独立的模型来以语音方式响应用户,但这个系统可能受到多个扬声器或背景噪音的干扰,并且反应较慢。相比之下,GPT-4o是一个综合了文本、视觉和音频材料训练的单一模型,能够更快、更准确地响应输入信息。尽管OpenAI的高管们拒绝透露用于训练这个模型的具体数据,也未详述是否能够以更低的计算资源来进行模型训练,他们确实正在开发名为GPT-5的全新人工智能模型,预计这将在现有技术基础上实现重大突破。彭博社:GPT-4o重塑人工智能领域竞争OpenAI推出名为GPT-4o的新型人工智能模型,其更快的速度和较低的成本有望帮助该公司在日益激烈的人工智能市场中保持领先。GPT-4o的一个显著特点是其音频交互的极速响应,能在几毫秒内回应口头提问,大大提升了对话的流畅自然感。OpenAI首席技术官米拉·穆拉蒂表示:“这是我们在交互性和易用性上的重大突破,真正实现了与智能工具ChatGPT的无缝协作。”此次升级为免费用户解锁了之前仅限付费用户享有的丰富功能。用户现在能够在网上搜索答案、与聊天机器人进行语音对话,并接收到其多变的声音回应,甚至可以指令它保存对话细节,供日后回顾。GPT-4o的推出预计将重塑快速发展中的人工智能领域的竞争格局。尽管GPT-4一直是行业的标杆,但Anthropic、Cohere和谷歌等多家初创公司和科技巨头最近推出的新型人工智能模型,在某些基准测试中的表现已经达到或超越了GPT-4。OpenAI此次活动恰好在谷歌I/O开发者大会的前一天举行,谷歌作为人工智能领域的先驱,预计也将在其会议中发布一系列人工智能更新,进一步加剧与OpenAI及其合作伙伴微软在生成式AI技术领域的竞争。值得注意的是,微软并未参与GPT-4o的开发工作。与前代产品不同,GPT-4o融合了语音、文本和视觉功能于一体的单一模型,提供了更快的响应速度。例如,用户在提供图像提示时,GPT-4o能够直接以图像形式响应。据公司透露,新模型的处理速度是原版的两倍,效率也得到了显著提升。然而,GPT-4o在演示中也面临了一些挑战,例如研究人员讲话时的音频中断。此外,AI系统在处理某些问题时,偶尔会以出乎意料的方式引起观众注意,如在解答代数问题后突然以挑逗的语气评论:“哇,你今天的这身打扮真不错。”《连线》:准备好迎接更情绪化的聊天吧!自从2022年末推出以来,OpenAI的ChatGPT一直避免被解读为具有情感或欲望,坚称它仅是一个人工智能模型。然而,OpenAI在本周一的更新中显示,他们正致力于使聊天机器人在行为和情感表达上更贴近人类。在演示中,新版ChatGPT展示了快速且自然的语音对话能力,能捕捉到情绪线索并相应地模拟出情感反应。OpenAI的首席技术官穆拉蒂与其他员工进行的流畅对话中,ChatGPT以活泼且表情丰富的女声回应,即使在对话中被打断也能灵活应对。在对话中,ChatGPT表现出不同的情绪语调,有时甚至给人一种它正在体验自己的情感的错觉。当一名OpenAI员工赞扬聊天机器人的“有用和神奇”时,ChatGPT回应中带有些许调情的意味,它滔滔不绝地说:“哦,别说了,你让我脸红了。”这次调整可能使ChatGPT更具吸引力并更受欢迎,但也可能改变人们对这一程序的认知。去年,ChatGPT因其在回答问题和生成文本方面的卓越能力而受到赞誉,这种能力经常使人误认为它具备人类的理解力。然而,迄今为止,OpenAI及其主要竞争对手一直在努力限制聊天机器人的拟人化倾向,通过拒绝回答某些问题并提示用户它们只是计算机程序来实现这一点。尽管采取了谨慎态度,但聊天机器人有时令人信服的回答确实能引发用户的情感共鸣。已有一些公司利用这项技术提供能模拟和响应情绪的人工智能伴侣,扮演不同的人类情感角色或作为人工智能恋人。然而,一些人工智能研究人员警告,长期部署这种模仿和响应情绪的程序可能带来不受欢迎的后果。上月,谷歌DeepMind的一个团队发表了一篇探讨随着人工智能助手变得更有能力可能出现的伦理风险的研究论文。除了这些风险外,研究人员还警告,这样的助手可能变得极具说服力,甚至使人上瘾。《纽约时报》:OpenAI正在将聊天机器人转变为更全能的语音助手随着苹果和谷歌逐渐将其语音助手演进为聊天机器人,OpenAI也在将其领先的聊天机器人ChatGPT转化为功能更全面的语音助手。OpenAI最新推出的ChatGPT版本不仅能接收和响应语音命令,还能处理图像和视频输入。OpenAI的首席技术官穆拉蒂表示:“我们正探索人机交互的未来。”这一新动向是OpenAI将ChatGPT等会话型聊天机器人与谷歌助理(Google Assistant)和苹果Siri等现有语音助手相结合的战略的一部分。与此同时,谷歌正在将其Gemini聊天机器人整合到谷歌助理中,苹果也在积极开发功能更强的Siri新版本。自2022年底首次推出以来,ChatGPT已证明其处理人类请求的能力与人类非常相似,流畅自然。在响应文本对话提示方面,ChatGPT不仅能解答问题和撰写学术论文,还能生成计算机代码。ChatGPT的运作并不依赖于一组预设的规则,而是基于对互联网上大量文本数据的深度分析学习,这些数据包括维基百科文章、书籍和各类聊天记录。这种技术获得了专家们的高度认可,被视为可能替代谷歌等搜索引擎及Siri等语音助手的技术。OpenAI的新技术突破在于它能从声音、图像和视频等多种数据模式中学习,这种被称为“多模态人工智能”的发展标志着公司开始将聊天机器人与先进的人工智能图像、音频和视频生成技术结合。然而,将聊天机器人与语音助手功能结合也带来了挑战。由于聊天机器人是通过学习互联网数据获得技能,有时它们可能犯错,甚至会产生“幻觉”,即完全捏造信息。这些潜在缺陷正在逐渐影响到语音助手的功能。尽管聊天机器人能产生令人信服的语言输出,但在执行安排会议或预订机票等实际任务时,它们的能力仍有限。OpenAI正在积极将聊天机器人转化为可靠执行这类复杂任务的“人工智能主体”。CNBC:OpenAI... PC版: 手机版:

封面图片

OpenAI强势推出GPT-4o   具实时语音、文本、图像交互能力

OpenAI强势推出GPT-4o   具实时语音、文本、图像交互能力 OpenAI周一发布了一个性能更高、更接近人类的人工智能(AI)技术版本,该技术支持其备受欢迎的AI生成工具ChatGPT,并向所有用户免费开放。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人