OpenAI官宣推出多模态ChatGPT 能看、能听、还会说

OpenAI官宣推出多模态ChatGPT能看、能听、还会说(来源:OpenAI)ChatGPT此前曾推出过能上传图片的“代码解释器“功能,具备了一些初步处理图像和文本照片的能力。但毫无疑问,今天这个“随手拍、随心问”才更贴近大多数用户的AI助手使用场景。拍张冰箱照片告诉你今晚吃啥按照标题的顺序,今天更新的功能主要有两点:基于图片的对话,以及实时语音对话。先说关注度非常高的图片聊天功能。按照OpenAI的说法,用户现在可以拍一张冰箱的照片,然后让ChatGPT来推荐菜谱;在旅行时拍摄一张地标的照片,让ChatGPT来讲述这处景点的有趣之处。当然,也能拍一张数学题的照片,让ChatGPT来解答。在官方给出的例子中,给到ChatGPT一张自行车的照片,问它如何把座椅调低。然后ChatGPT表示看你车的型号,有的车有快拆杆,有的是用螺栓固定,然后给出了详细的步骤。随后官方装作不懂,拍了一张螺栓的照片,并用官方画图工具圈出来以示强调,然后问ChatGPT这是不是快拆杆。ChatGPT表示你这个是螺栓,得去找一个内六角扳手。随后官方又拍了一张工具箱的照片,问ChatGPT到底是哪一个扳手。ChatGPT也顺利地认出了扳手,并准确提示用户到底要拿哪一个尺寸。ChatGPT会说话啦!除此之外,OpenAI也将语音识别、转录和音频生成功能打包,推出了AI语音聊天的功能,这项功能只适用于iOS和安卓客户端。官方表示,用户可以用这项功能为家里的小孩讲睡前故事。或者家里吃着饭,突然为某个问题吵起架来,这个时候就可以把ChatGPT拍在桌面上解决争论。OpenAI介绍称,这项功能使用了Whisper开源语音识别系统,将用户说的话转录成文本。同时还用上了一项新的文本转语音模型,并与专业配音演员合作,提供5种可供用户自行选择的声音。更先进的AI也有新的风险和局限性OpenAI表示,新的语音技术能够仅通过几秒钟的真实语音创造出逼真的合成声音。这种功能打开了创造力的大门,也带来了新的风险——例如不法分子可能伪造公众人物进行欺诈。所以OpenAI的决策是通过“语音聊天”这样的特定用例来推出这项功能。同时OpenAI也在与更多的机构展开合作。例如流媒体公司Spotify就在试用这项功能来进行语音翻译,通过使用播客主持人的声音将播客音频翻译成其他语言,帮助播客主持人扩大他们的全球影响力。图像也会带来新的挑战,例如幻觉问题,以及使用者在高风险领域却依赖模型对图像的解释。因此在上线前,OpenAI也对极端主义和科学能力等领域进行了风险测试。另外对看到这篇文章的中文读者来说,图片对话的体验大概率值得期待,但语音对话可能要打一些折扣。OpenAI表示,该模型擅长转录英文文本,但在一些其他语言,特别是那些使用非罗马字母的语言中表现不佳,建议非英语用户不要使用ChatGPT来进行此类用途。...PC版:https://www.cnbeta.com.tw/articles/soft/1386295.htm手机版:https://m.cnbeta.com.tw/view/1386295.htm

相关推荐

封面图片

ChatGPT 现在可以看到、听到和说话 —— GPT-4 多模态版本上线

ChatGPT现在可以看到、听到和说话——GPT-4多模态版本上线OpenAI开始在ChatGPT中推出新的语音和图像功能,允许您进行语音对话或向ChatGPT展示画面。Plus和企业用户将在未来两周内体验语音和图像,不久后推出给其他用户组,包括开发人员。图像理解由多模态GPT-3.5和GPT-4提供支持,你现在可以向ChatGPT展示一个或多个图像。这些模型可以将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。文本转语音由新的模型提供支持,它能够从几秒钟的真实语音中制作出逼真的合成语音。ChatGPT的预设语音来自直接合作的专业配音演员。语音转文本由OpenAIWhisper模型支持。投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

ChatGPT能够猜你所想 OpenAI为Plus用户推出新测试功能

ChatGPT能够猜你所想OpenAI为Plus用户推出新测试功能不用手动切换Tools。GPT-4可以自动切换浏览、高级数据分析、DALL·E等模式(如果用户愿意,GPT-4仍然可以手动选择)。第一条更新功能实际上相当于将ChatGPT企业计划中提供的一些办公功能带到了独立的个人聊天订阅中。一旦将文件提供给ChatGPT,在准备使用该文件之前,它需要一些时间来消化该文件,然后聊天机器人可以执行汇总数据、回答问题或根据提示生成数据可视化等操作。第二条更新内容基本上是指:更新后的GPT-4可以根据上下文猜测用户想要什么。也就是说,用户不需要再从GPT-4下拉菜单中选择诸如“用必应浏览(BrowsewithBing)”此类的模式,GPT-4会帮你选择。并且,聊天机器人不仅限于文本文件,还能根据文本生成图片。这位用户上传了一张水豚的图片,并要求ChatGPT通过DALL-E3在此基础上创建一张皮克斯风格的图片,ChatGPT成功生成了一张图。然后,他们重复了第一个要求,并上传了另一张图片,要求将第二张图的元素插入第一张生成图,结果也成功了。...PC版:https://www.cnbeta.com.tw/articles/soft/1393239.htm手机版:https://m.cnbeta.com.tw/view/1393239.htm

封面图片

OpenAI 推迟了 ChatGPT 的新语音模式

OpenAI推迟了ChatGPT的新语音模式OpenAI在其官方Discord服务器上发布了一篇文章,称其原计划于6月底开始向一小部分ChatGPTPlus用户推出高级语音模式的Alpha版,但由于一些问题迟迟得不到解决,不得不将推出时间推迟到7月。"例如,我们正在提高模型检测和拒绝某些内容的能力,"OpenAI写道。"我们还在努力改善用户体验,并准备将我们的基础设施扩展到数百万,同时保持实时响应。作为我们迭代部署策略的一部分,我们将从一小群用户开始进行阿尔法测试,以收集反馈,并根据我们所学到的知识进行扩展。"OpenAI表示,高级语音模式可能要到秋季才会面向所有ChatGPTPlus客户推出,这取决于它是否满足某些内部安全性和可靠性检查的要求。不过,这一延迟不会影响在OpenAI春季新闻发布会上单独演示的新视频和屏幕共享功能的推出。这些功能包括根据问题图片解决数学问题,以及解释设备上的各种设置菜单。这些功能不仅适用于智能手机上的ChatGPT,也适用于桌面客户端,比如MacOS应用程序,今天早些时候,所有ChatGPT用户都可以使用该应用程序。"ChatGPT先进的语音模式可以理解情绪和非语言线索并做出反应,让我们更接近与人工智能进行实时、自然的对话,"OpenAI写道。"我们的使命是将这些新体验深思熟虑地带给您。"在发布会的舞台上,OpenAI的员工展示了ChatGPT对请求的即时响应,例如在研究人员智能手机摄像头前的一张纸上解决一道数学题。OpenAI的高级语音模式因默认的"Sky"语音与女演员斯嘉丽-约翰逊(ScarlettJohansson)的语音相似而引发了不少争议。约翰逊后来发表声明说,她聘请了法律顾问来询问有关语音的问题,并获得了关于如何开发语音的确切细节--她拒绝了OpenAI关于授权她为ChatGPT配音的多次请求。OpenAI虽然否认在未经许可的情况下使用了约翰逊的声音,也没有使用相似的声音,但随后删除了违规的声音。...PC版:https://www.cnbeta.com.tw/articles/soft/1436111.htm手机版:https://m.cnbeta.com.tw/view/1436111.htm

封面图片

OpenAI 推迟发布 ChatGPT 的语音助手功能

OpenAI推迟发布ChatGPT的语音助手功能OpenAI推迟发布备受期待的ChatGPT语音助手功能,以确保它能够安全有效地处理来自数百万用户的请求。该公司在5月份的产品发布会上为GPT-4o推出了语音选项。OpenAI表示,它原本打算在6月底向一小部分付费ChatGPTplus用户推出语音功能,但后来认为还需要一个月的时间才能“达到我们的标准”。“我们正在提高该模型检测和拒绝某些内容的能力,”该公司周二表示。此举意味着OpenAI可能遭遇挫折,该公司正努力在日益激烈的人工智能竞争中保持领先地位。

封面图片

OpenAI推出ChatGPT语音功能 并就其公司内斗开了个玩笑

OpenAI推出ChatGPT语音功能并就其公司内斗开了个玩笑今年9月,OpenAI首次推出了用语音和图像提示ChatGPT的功能,但该功能只对付费用户开放。该功能发布之际,OpenAI的员工正在为其首席执行官的突然下台而苦苦挣扎,同时也在为他的回归进行混乱的谈判。OpenAI在X上发布的演示甚至还拿正在进行的这场闹剧开了个玩笑,这场闹剧在过去几天里一直持续到深夜。在这个例子中,有人问ChatGPT:"对团队来说,这是一个漫长的夜晚,我们饿了。我应该为778人点多少份16英寸的披萨?"OpenAI拥有大致相同数量的员工,其中大部分人最近威胁说,除非整个董事会辞职,否则他们就辞职。上周,OpenAI董事会解雇了联合创始人兼首席执行官山姆-阿尔特曼(SamAltman),因为董事会成员发现"他在与董事会的沟通中没有始终保持坦诚"。此后,微软首席执行官萨提亚-纳德拉(SatyaNadella)邀请阿尔特曼和他的团队成员在这家科技巨头成立一个新部门,但阿尔特曼可能会重返OpenAI。前OpenAI总裁格雷格-布罗克曼(GregBrockman)在奥特曼下台后辞职,他在X上转发了OpenAI的公告,并表示:"试一试吧--完全改变了ChatGPT的体验。"值得注意的是,Brockman也对重返OpenAI持开放态度。...PC版:https://www.cnbeta.com.tw/articles/soft/1398839.htm手机版:https://m.cnbeta.com.tw/view/1398839.htm

封面图片

OPENAI 推迟 ChatGPT 新语音模式

OPENAI推迟ChatGPT新语音模式OpenAI在官方Discord服务器上的一篇帖子中表示,该公司计划于6月底开始向一小部分ChatGPTPlus用户推出alpha版语音模式,但由于存在技术问题,被迫将发布时间推迟到7月。OpenAI写道:例如,我们正在改进模型检测和拒绝某些内容的能力。我们还在努力改善用户体验……作为我们迭代部署策略的一部分,我们将从一小群用户开始alpha测试,以收集反馈并根据我们学到的知识进行扩展。OpenAI表示,语音模式可能要到秋季才会向所有ChatGPTPlus用户推出,这取决于它是否符合某些内部安全性和可靠性检查。不过,该公司澄清说,这一延迟不会影响在OpenAI春季新闻发布会上单独演示的新视频和屏幕共享功能的推出。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人