卧槽,ChatGPT 的多模态就这么来了,手机版本可以理解语音以及图象内容了。太强了真的。

卧槽,ChatGPT 的多模态就这么来了,手机版本可以理解语音以及图象内容了。太强了真的。 ChatGPT 现在可以听到你让他听到的信息,并且可以以语音回复问题。 你现在可以向 ChatGPT 显示一张或多张图像。排查烧烤炉无法启动的原因,探索冰箱中的物品来计划膳食,或分析复杂的图表以获取与工作相关的数据。 你甚至可以圈出来需要 ChatGPT 关注的部分,它会只关注你圈起来的信息。 Plus 和 Enterprise 用户将在接下来的两周内体验语音和图像输入的功能。 来源:

相关推荐

封面图片

ChatGPT 的语音功能现向所有免费用户开放

ChatGPT 的语音功能现向所有免费用户开放 ChatGPT 的语音功能现已免费向所有用户开放。在 X 上的一篇推文中,OpenAI 宣布用户现在可以点击耳机图标,在移动应用中使用语言与 ChatGPT 对话,并获得语音回应 今年 9 月,OpenAI 首次推出了用语音和图像提示 ChatGPT 的功能,但该功能只对付费用户开放。 在推文示例中,OpenAI 还对近期发生的事情开了一个笑话,有人问 ChatGPT:“团队度过了一个漫长的夜晚,我们都饿了。 我应该为 778 人点多少份 16 英寸的披萨?” 这个人数与 OpenAI 员工人数大致一样,其中大部分人已签署公开信,要求解散董事会,不然就辞职。 、 (提示:)

封面图片

IT之家:ChatGPT 的语音功能现已面向所有免费用户开放。意味着无需支付任何费用,就能与 ChatGPT 进行自然的对话,体

IT之家:ChatGPT 的语音功能现已面向所有免费用户开放。意味着无需支付任何费用,就能与 ChatGPT 进行自然的对话,体验犹如与真人交流一般的奇妙互动。 在 Google Play 商店更新该应用时,在“事件和订单”部分中就能看到这个更新信息,显示:“现在你可以用声音与 ChatGPT 进行自然的互动,无论是旅途中闲聊、为家人朗读睡前故事,还是解决晚餐时的辩论,ChatGPT 都能满足你的需求。只需下载 ChatGPT 应用并点击耳机图标,即可开启对话之旅!” 虽然目前苹果 App Store 尚未发布相关公告,但该功能也已在 iOS 版应用中悄然上线。 如何开启语音功能呢?只需下载 ChatGPT 应用并点击耳机图标,然后选择你喜欢的语音(包括多种男女声和不同口音),就可以开始与 ChatGPT 畅聊了。

封面图片

chatGPT即将到来的新功能演示。

chatGPT即将到来的新功能演示。 OpenAI 发布了名为 GPT-4o 的新旗舰生成式人工智能模型,并将在未来几周内在公司面向开发者和消费者的产品中 "迭代 "推出。 OpenAI 首席技术官穆拉提说,GPT-4o 提供了 "GPT-4 级 "的智能,但改进了 GPT-4 在文本、视觉和音频方面的能力:"GPT-4o的理由横跨语音、文本和视觉。 ” GPT-4o大大改善了ChatGPT的体验。ChatGPT 提供语音模式,使用文本到语音模型转录为ChatGPT 中的文本。 GPT-4o 对此进行了强化,允许用户像对待语音助手一样与 ChatGPT 互动。 例如,用户可以向由 GPT-4o 支持的 ChatGPT 提问,并在 ChatGPT 回答时打断它。 OpenAI 将发布桌面版 ChatGPT,并更新用户界面。穆拉提说:"我们知道这些模型越来越复杂,但我们希望交互体验实际上变得更加自然、轻松,让你完全不用关注用户界面,而只关注与(GPT)的协作。”

封面图片

Android 15 的语音激活功能可以让你免提启动第三方应用 比如 ChatGPT

Android 15 的语音激活功能可以让你免提启动第三方应用 比如 ChatGPT 目前,可以在 Android 上通过语音命令启动的唯一应用是谷歌助手以及 OEM 预装的任何语音助手,例如小爱同学。 在深入研究 Android 14 QPR2 beta 时,发现了一个语音激活应用的隐藏页面 (如上所示)。此页面显示在“设置”>“应用”>“特殊应用权限”下,允许授予指定应用新的语音激活权限。根据该许可的描述,语音激活“使用语音命令免提打开批准的应用。内置自适应传感可确保数据仅对您保密。” 新的语音激活权限可以授予第三方应用。关于这一即将推出的功能的更多细节很少,因为它仍在开发中,并且可能打算与 Android 15 一起推出。

封面图片

Minimax的AI对话机器人问答产品海螺问问上线了,产品的语音对话能力、模型能力以及体验打磨都非常的不错。

Minimax的AI对话机器人问答产品海螺问问上线了,产品的语音对话能力、模型能力以及体验打磨都非常的不错。 体验好的一方面是海螺问问有非常自然的语音模型接入,支持语音回答问题。 还支持跟软件进行类似 ChatGPT 的实时的 AI 语音对话,但是没有 ChatGPT 那股外国腔,比如视频第一段的演示。 语音能力的另外一个杀手锏是,可以在海螺问问里面训练自己的语音模型,而且这个过程非常简单,只需要阅读屏幕上显示的一段话就可以。比如20 秒以后的视频配音就是我自己的模型。 然后就是模型能力,海螺问问接入的是 Minimax 的 Moe 模型,所以在很多特殊任务的处理上会比同规模的其他不是 Moe架构的模型要强很多。 它也支持图像的多模态识别,比如我这里在出租车的时候拍了一张照片让它识别内容,它识别出了座位下面的报纸和前面的车座,同时还进行了一定的推理,判断出这个车可能是用来拉人的不是自用的。 最后是海螺问问的整个UI细节和交互逻辑都是经过精细打磨过的,比如输入框为了支持长内容输入是可以展开的,而且支持按住Command 加上回车换行,从Web到移动端非常一致且有温度的UI界面样式。 另外海螺问问现在也是免费的,尤其是语音能力的加持让他的使用场景变得更多了,如果你不方便使用或者嫌 ChatGPT 慢的话,可以试试跟海螺问问聊聊。 这里使用:

封面图片

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能 穆拉提在 OpenAI 办公室举行的主题演讲上说:GPT-4o 的理由横跨语音、文本和视觉。OpenAI 将发布桌面版 ChatGPT 和全新的用户界面。穆拉提说:"我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与GPT的协作。这一点非常重要,因为我们正在展望人类与机器之间互动的未来。"GPT-4是OpenAI之前的领先模型,它是图像和文本的结合体,可以分析图像和文本,完成从图像中提取文本甚至描述图像内容等任务。但 GPT-4o 增加了语音功能。这具体能带来什么?很多方面。GPT-4o 极大地改善了 ChatGPT 的体验ChatGPT 是 OpenAI 的病毒式人工智能聊天机器人。ChatGPT 长期以来一直提供语音模式,使用文本到语音模式转录 ChatGPT 中的文本。但 GPT-4o 对此进行了改进,让用户可以更像使用助手一样与 ChatGPT 互动。例如,用户可以向由 GPT-4o 支持的 ChatGPT 提问,并在 ChatGPT 回答时打断它。OpenAI 表示,该模型能提供 "实时 "响应,甚至能捕捉用户声音中的情感,并生成 "一系列不同情感风格 "的语音。GPT-4o 还改进了 ChatGPT 的视觉功能。有了照片或桌面屏幕,ChatGPT 现在可以快速回答相关问题,从 "这个软件代码是怎么回事 "到 "这个人穿的是什么牌子的衬衫?其他方面,OpenAI 将发布桌面版 ChatGPT 和全新的用户界面。穆拉提说:"我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与 [GPT] 的协作。" ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人