chatGPT即将到来的新功能演示。

chatGPT即将到来的新功能演示。OpenAI发布了名为GPT-4o的新旗舰生成式人工智能模型,并将在未来几周内在公司面向开发者和消费者的产品中"迭代"推出。OpenAI首席技术官穆拉提说,GPT-4o提供了"GPT-4级"的智能,但改进了GPT-4在文本、视觉和音频方面的能力:"GPT-4o的理由横跨语音、文本和视觉。”GPT-4o大大改善了ChatGPT的体验。ChatGPT提供语音模式,使用文本到语音模型转录为ChatGPT中的文本。GPT-4o对此进行了强化,允许用户像对待语音助手一样与ChatGPT互动。例如,用户可以向由GPT-4o支持的ChatGPT提问,并在ChatGPT回答时打断它。OpenAI将发布桌面版ChatGPT,并更新用户界面。穆拉提说:"我们知道这些模型越来越复杂,但我们希望交互体验实际上变得更加自然、轻松,让你完全不用关注用户界面,而只关注与(GPT)的协作。”

相关推荐

封面图片

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

OpenAI发布最新旗舰生成式AI模型GPT-4o改进文本、视觉和音频功能穆拉提在OpenAI办公室举行的主题演讲上说:GPT-4o的理由横跨语音、文本和视觉。OpenAI将发布桌面版ChatGPT和全新的用户界面。穆拉提说:"我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与GPT的协作。这一点非常重要,因为我们正在展望人类与机器之间互动的未来。"GPT-4是OpenAI之前的领先模型,它是图像和文本的结合体,可以分析图像和文本,完成从图像中提取文本甚至描述图像内容等任务。但GPT-4o增加了语音功能。这具体能带来什么?很多方面。GPT-4o极大地改善了ChatGPT的体验--ChatGPT是OpenAI的病毒式人工智能聊天机器人。ChatGPT长期以来一直提供语音模式,使用文本到语音模式转录ChatGPT中的文本。但GPT-4o对此进行了改进,让用户可以更像使用助手一样与ChatGPT互动。例如,用户可以向由GPT-4o支持的ChatGPT提问,并在ChatGPT回答时打断它。OpenAI表示,该模型能提供"实时"响应,甚至能捕捉用户声音中的情感,并生成"一系列不同情感风格"的语音。GPT-4o还改进了ChatGPT的视觉功能。有了照片或桌面屏幕,ChatGPT现在可以快速回答相关问题,从"这个软件代码是怎么回事"到"这个人穿的是什么牌子的衬衫?其他方面,OpenAI将发布桌面版ChatGPT和全新的用户界面。穆拉提说:"我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与[GPT]的协作。"...PC版:https://www.cnbeta.com.tw/articles/soft/1430761.htm手机版:https://m.cnbeta.com.tw/view/1430761.htm

封面图片

今天发布的GPT-4o以及ChatGPT产品的快速总结:#ai# #open#

今天发布的GPT-4o以及ChatGPT产品的快速总结:#ai##openai#GPT-4o(“o”代表“全能”)它可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。它可以在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。在英文和代码文本方面,它与GPT-4Turbo的性能相当,对非英语文本的文本有显著改进。同时在API方面更快速、价格更便宜50%。与现有模型相比,GPT-4o在视觉和音频理解方面表现特别出色。与GPT-4Turbo相比,GPT-4o速度提高了2倍,价格减半,限制速率提高了5倍。何时可用?GPT-4o的文本和图像功能今天开始在ChatGPT中推出。将在免费版中提供GPT-4o,并为Plus用户提供高达5倍的消息限制。将在未来几周内在ChatGPTPlus中推出带有GPT-4o的VoiceMode的新版本。开发者现在也可以通过API访问GPT-4o作为文本和视觉模型。公告地址:https://openai.com/index/hello-gpt-4o/

封面图片

ChatGPT-4o,OpenAI的一小步,人类“AI助理”的一大步

ChatGPT-4o,OpenAI的一小步,人类“AI助理”的一大步它长出了“眼睛”,可以通过摄像头看到你,比如它通过研究员上扬的嘴角判断他的心情、通过他周围的环境背景判断了他正在做什么、甚至给出了造型建议;它能“看到”你的电脑桌面,直接帮你查看写的代码有什么问题。它有了更灵敏的“耳朵”,能听懂的不只是语言,还能听懂研究员过于急促的呼吸声,并引导他慢慢平稳呼吸、放松下来。OpenAICTOMuraMurati宣布推出ChatGPT-4o图片来源:OpenAI它有了更灵活的“嘴巴”,对话不再有延时,你能随时打断它、它能随时接住你的话。它的声音能带入感情,比如更冷静一点、更激昂一点、甚至讽刺一点。它还能唱歌。它也有了更聪明的“大脑”。它能帮研究员一步步解不等式,还可以做同声翻译、你可以通过它跟不同语种的人们交流。这些强大的能力背后,源自OpenAI推出的新模型GPT-4o。与现有模型相比,GPT-4o的最大进步在于,它可以实时对音频、视觉和文本进行推理——换句话说,它让ChatGPT实现了真正意义上的多模态交互。这不仅仅是技术进步的追求,更是应用普及的追求。OpenAI的使命之一是让AI普惠每个人,让用户能顺滑地用上AI是至关重要的。在“模型即应用”的时代,这种交互体验最终还是靠模型能力的提升。OpenAI称,GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步。发布会上,MiraMurati宣布ChatGPT-4o将免费向所有用户开放,而付费和企业用户,可以抢先获得体验。电影《Her》上映于2013年,它讲述了一位人类爱上一位人工智能语音助理的故事。从今天ChatGPT呈现的能力来看,这样的想象正在加速成为现实。ChatGPT的惊人进步:变身人类“超级助理”,甚至不需要人类参与在OpenAI的官网上,呈现了ChatGPT作为个人语音“超级助理”的更多惊人应用场景。首先是面向单个用户,和人一样,它提供的主要是“情绪价值”与“认知价值”。比如它能讲笑话、唱生日快乐歌、玩游戏、逗小狗、给人催眠、让人放松等等;它能充当面试官,给人提供面试建议;它还能给一位盲人提供环境观察,给他讲述看到的景色、提醒他过马路的路况。盲人用户使用ChatGPT-4o“观察”整个世界图片来源:OpenAI接着是面向多个用户,它提供的更多是一种“协同价值”。比如给两个语言不通的人充当翻译,让他们能无障碍沟通;给两个人做“剪刀石头布”的游戏裁判,先喊口令让游戏开始、之后还能准确判断是哪个人赢了;充当一名“家教”,帮一位父亲辅导他的孩子做作业;甚至作为一名“会议第三方”,主持和记录多人会议。最有意思的还是,不同ChatGPT之间的对话。这种无需人类参与的沟通,不仅充满了科幻感,更让人开始想象无需人类协作、而让机器代替人类协作的未来。在一段演示中,一位用户要求一部手机的ChatGPT代表自己,向另一部手机的ChatGPT申请售后,结果这两个ChatGPT毫无阻碍地聊了两分钟,顺利帮这位用户“换了货”。而OpenAI总裁GregBrockman则做了一个调皮的演示,他让两个ChatGPT互动并唱了歌。OpenAI总裁GregBrockman演示两个GPT的互动图片来源:OpenAI一位曾在10年前就开始做“AI语音助理”的前大厂高管对极客公园表示,他当时就设想过AI助理的终极形态应该是“多模态、无所不能”,但彼时技术并不支持,他认为ChatGPT会加速这种设想实现的可能——只是他没想到,这个过程会来得这么快。他认为,实现AGI的一个关键标志是,机器是否能具备了自主学习、自主迭代、自主解决问题等能力。这个突破看起来很遥远,但当两个ChatGPT开始互相聊天的时候,这个鸿沟看起来似乎浅了一点点。GPT-4o多模态大模型的技术进步、以及安全性这些惊艳的产品表现,根本上源自于GPT-4o多模态大模型的技术进步。后者分为文本、语音、图像三部分,GPT-4o在这三块都有提升,尤其是后两者。在文本方面,据OpenAI的技术报告,GPT-4o在MMLU(语言)、GPQA(知识)、MATH(数学)、HumanEval(编程)的评测指标上,都超出了GPT-4T、GPT-4(23年3月最初发布版本),以及竞品Claude3Opus、GeminiPro1.5、Llama3400b、GeminiUltra1.0。比如在0-shotCOTMMLU上,GPT-4o创下了88.7%的新高分。GPT-4o在文本上的成绩相当优异图片来源:OpenAI最关键的,是音频、多语言和视觉上的进步。在音频方面,过去ChatGPT的音频缺陷是需要经过三个独立的模型,从而存在延迟、且无法承载丰富信息。它先由第一个模型将音频转录为文本,再由GPT-3.5或GPT-4接收文本并输出文本,最后由第三个模型将该文本转换回音频——一方面,它使得音频的传输存在延迟,GPT-3.5的平均延迟为2.8秒,GPT-4的平均延迟为5.4秒。另一方面,模型会丢失大量信息,从而无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。而GPT-4o的解决办法是,跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。OpenAI称这是其突破深度学习界限的最新举措。目前,GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类的响应时间相似。同时在音频ASR性能和翻译性能上,GPT-4o都比Whisper-v3(OpenAI的语音识别模型)的性能更优。M3Exam基准测试既能用于多语言评估,也可以用于视觉评估。它由多项选择题组成,包括图形和图表。在所有语言的基准测试中,GPT-4o都比GPT-4更强。另外在视觉理解评估上,GPT-4o在视觉感知基准上都实现了最先进的性能。GPT-4o在视觉理解上同样能力不错图片来源:OpenAI一位大模型训练者曾对极客公园表示,模型的技术领先性从来不是靠打榜评分,而是靠用户最真实的感受和体验。从这个角度来说,GPT-4o的技术领先性将很容易见分晓。OpenAI表示,GPT-4o的文本和图像功能将于发布会当天在ChatGPT中推出。免费用户就可以使用,不过Plus付费用户能享受高达5倍的消息容量。在未来几周内,OpenAI会在ChatGPTPlus中推出新版本的语音模式GPT-4oalpha。而开发人员现在就可以在API中访问GPT-4o的文本和视觉模型。与GPT-4Turbo相比,GPT-4o速度提高了2倍、价格降低了一半、速率限制提高了5倍。在未来几周内,OpenAI计划向一小部分值得信赖的合作伙伴推出GPT-4o的新音频和视频功能。一项强大的技术最令外界担忧的,就是它的安全可控性。这也是OpenAI最核心的考虑之一。OpenAI表示,GPT-4o通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性。其还创建了新的安全系统,为语音输出提供防护。为了保证更好的安全性,OpenAI表示在接下来的几周和几个月里,将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。OpenAI从没让外界失望,再次引领科技圈的未来作为这波AI浪潮的开启者、引领者,OpenAI的每一次发布和更新,都关系着其庞大用户量的涨跌、公司竞争的进退、以及整个行业的关注和走向。在这次发布会之前,外界对OpenAI颇多谣传、也包括质疑。一周前,外媒报道此次OpenAI要发布的是一款搜索引擎——在一年最重要的新闻发布时刻,这家公司没有推出GPT-5,这引来外界对其创新力的颇多怀疑。而如果无法拿出足够创新力的技术和产品,这家公司将难以重振用户的增长、满足整个市场对它的期待。自2022年底推出ChatGPT后,这家公司的用户量经历了大起大落。据Similarweb估计,其全球访问量在2023年5月达到...PC版:https://www.cnbeta.com.tw/articles/soft/1430819.htm手机版:https://m.cnbeta.com.tw/view/1430819.htm

封面图片

OpenAI发布ChatGPT 4o 以后似乎删除了网页版 ChatGPT 4.0 的无限访问权限

OpenAI发布ChatGPT4o以后似乎删除了网页版ChatGPT4.0的无限访问权限截至2024年5月13日,Plus用户将能够在GPT-4o上每3小时最多发送80条消息,在GPT-4上每3小时最多发送40条消息。ChatGPTTeam工作区中用户的GPT-4和GPT-4o消息上限高于ChatGPTPlus。关注频道@ZaiHuaPd频道投稿@ZaiHuabot

封面图片

一文看懂 OpenAI 春季发布会:正式发布 GPT-4o! 完全免费、无障碍与人交谈 实时语音视频交互震撼全场

一文看懂OpenAI春季发布会:正式发布GPT-4o!完全免费、无障碍与人交谈实时语音视频交互震撼全场北京时间周二(5月14日)凌晨,美国人工智能研究公司OpenAI在线上举办了“春季更新”活动。整体来看,活动主要分为两大部分:推出新旗舰模型“GPT-4o”,以及在ChatGPT中免费提供更多功能。①OpenAI在活动中发布了新旗舰模型“GPT-4o”,“可以实时对音频、视觉和文本进行推理。”据介绍,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量。②OpenAI称,GPT-4o是迈向更自然人机交互的一步,它可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出,“与现有模型相比,GPT-4o在图像和音频理解方面尤其出色。”③在GPT-4o之前,用户使用语音模式与ChatGPT对话时,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒。与之相比,GPT-4o可以在232毫秒内对音频输入做出反应,与人类在对话中的反应时间相近。④图像输入方面,演示视频显示,OpenAI高管启动摄像头要求实时完成一个一元方程题,ChatGPT轻松完成了任务;另外,高管还展示了ChatGPT桌面版对代码和电脑桌面(一张气温图表)进行实时解读的能力。⑤性能方面,根据传统基准测试,GPT-4o在文本、推理和编码等方面实现了与GPT-4Turbo级别相当的性能,同时在多语言、音频和视觉功能方面的表现分数也创下了新高。⑥更多工具免费解锁。OpenAI表示,“我们开始向ChatGPTPlus和Team用户推出GPT-4o,并且很快就会向企业用户推出。我们今天还开始推出ChatGPTFree,但有使用限额。Plus用户的消息限额将比免费用户高出5倍,团队和企业用户的限额会再高一些。”即使是ChatGPTFree(免费)用户也可以有机会体验GPT-4o,但当达到限额时,ChatGPT将自动切换到GPT-3.5。⑦OpenAI还推出适用于macOS的ChatGPT桌面应用程序,通过简单的键盘快捷键(Option+Space)可以立即向ChatGPT提问,还可以直接在应用程序中截取屏幕截图与机器人进行讨论。

封面图片

今天发布的GPT-4o以及ChatGPT产品的快速总结:

今天发布的GPT-4o以及ChatGPT产品的快速总结:GPT-4o(“o”代表“全能”)它可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。它可以在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。在英文和代码文本方面,它与GPT-4Turbo的性能相当,对非英语文本的文本有显著改进。同时在API方面更快速、价格更便宜50%。与现有模型相比,GPT-4o在视觉和音频理解方面表现特别出色。与GPT-4Turbo相比,GPT-4o速度提高了2倍,价格减半,限制速率提高了5倍。何时可用?GPT-4o的文本和图像功能今天开始在ChatGPT中推出。将在免费版中提供GPT-4o,并为Plus用户提供高达5倍的消息限制。将在未来几周内在ChatGPTPlus中推出带有GPT-4o的VoiceMode的新版本。开发者现在也可以通过API访问GPT-4o作为文本和视觉模型。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人