卧槽，ChatGPT 的多模态就这么来了，手机版本可以理解语音以及图象内容了。太强了真的。

卧槽，ChatGPT 的多模态就这么来了，手机版本可以理解语音以及图象内容了。太强了真的。 ChatGPT 现在可以听到你让他听到的信息，并且可以以语音回复问题。你现在可以向 ChatGPT 显示一张或多张图像。排查烧烤炉无法启动的原因，探索冰箱中的物品来计划膳食，或分析复杂的图表以获取与工作相关的数据。你甚至可以圈出来需要 ChatGPT 关注的部分，它会只关注你圈起来的信息。 Plus 和 Enterprise 用户将在接下来的两周内体验语音和图像输入的功能。来源：

在Telegram中查看

相关推荐

ChatGPT 的语音功能现向所有免费用户开放

ChatGPT 的语音功能现向所有免费用户开放 ChatGPT 的语音功能现已免费向所有用户开放。在 X 上的一篇推文中，OpenAI 宣布用户现在可以点击耳机图标，在移动应用中使用语言与 ChatGPT 对话，并获得语音回应今年 9 月，OpenAI 首次推出了用语音和图像提示 ChatGPT 的功能，但该功能只对付费用户开放。在推文示例中，OpenAI 还对近期发生的事情开了一个笑话，有人问 ChatGPT：“团队度过了一个漫长的夜晚，我们都饿了。我应该为 778 人点多少份 16 英寸的披萨？” 这个人数与 OpenAI 员工人数大致一样，其中大部分人已签署公开信，要求解散董事会，不然就辞职。、（提示：）

IT之家：ChatGPT 的语音功能现已面向所有免费用户开放。意味着无需支付任何费用，就能与 ChatGPT 进行自然的对话，体

IT之家：ChatGPT 的语音功能现已面向所有免费用户开放。意味着无需支付任何费用，就能与 ChatGPT 进行自然的对话，体验犹如与真人交流一般的奇妙互动。在 Google Play 商店更新该应用时，在“事件和订单”部分中就能看到这个更新信息，显示：“现在你可以用声音与 ChatGPT 进行自然的互动，无论是旅途中闲聊、为家人朗读睡前故事，还是解决晚餐时的辩论，ChatGPT 都能满足你的需求。只需下载 ChatGPT 应用并点击耳机图标，即可开启对话之旅！” 虽然目前苹果 App Store 尚未发布相关公告，但该功能也已在 iOS 版应用中悄然上线。如何开启语音功能呢？只需下载 ChatGPT 应用并点击耳机图标，然后选择你喜欢的语音（包括多种男女声和不同口音），就可以开始与 ChatGPT 畅聊了。

chatGPT即将到来的新功能演示。

chatGPT即将到来的新功能演示。 OpenAI 发布了名为 GPT-4o 的新旗舰生成式人工智能模型，并将在未来几周内在公司面向开发者和消费者的产品中 "迭代 "推出。 OpenAI 首席技术官穆拉提说，GPT-4o 提供了 "GPT-4 级 "的智能，但改进了 GPT-4 在文本、视觉和音频方面的能力："GPT-4o的理由横跨语音、文本和视觉。 ” GPT-4o大大改善了ChatGPT的体验。ChatGPT 提供语音模式，使用文本到语音模型转录为ChatGPT 中的文本。 GPT-4o 对此进行了强化，允许用户像对待语音助手一样与 ChatGPT 互动。例如，用户可以向由 GPT-4o 支持的 ChatGPT 提问，并在 ChatGPT 回答时打断它。 OpenAI 将发布桌面版 ChatGPT，并更新用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验实际上变得更加自然、轻松，让你完全不用关注用户界面，而只关注与（GPT）的协作。”

Android 15 的语音激活功能可以让你免提启动第三方应用比如 ChatGPT

Android 15 的语音激活功能可以让你免提启动第三方应用比如 ChatGPT 目前，可以在 Android 上通过语音命令启动的唯一应用是谷歌助手以及 OEM 预装的任何语音助手，例如小爱同学。在深入研究 Android 14 QPR2 beta 时，发现了一个语音激活应用的隐藏页面 (如上所示)。此页面显示在“设置”>“应用”>“特殊应用权限”下，允许授予指定应用新的语音激活权限。根据该许可的描述，语音激活“使用语音命令免提打开批准的应用。内置自适应传感可确保数据仅对您保密。” 新的语音激活权限可以授予第三方应用。关于这一即将推出的功能的更多细节很少，因为它仍在开发中，并且可能打算与 Android 15 一起推出。

Minimax的AI对话机器人问答产品海螺问问上线了，产品的语音对话能力、模型能力以及体验打磨都非常的不错。

Minimax的AI对话机器人问答产品海螺问问上线了，产品的语音对话能力、模型能力以及体验打磨都非常的不错。体验好的一方面是海螺问问有非常自然的语音模型接入，支持语音回答问题。还支持跟软件进行类似 ChatGPT 的实时的 AI 语音对话，但是没有 ChatGPT 那股外国腔，比如视频第一段的演示。语音能力的另外一个杀手锏是，可以在海螺问问里面训练自己的语音模型，而且这个过程非常简单，只需要阅读屏幕上显示的一段话就可以。比如20 秒以后的视频配音就是我自己的模型。然后就是模型能力，海螺问问接入的是 Minimax 的 Moe 模型，所以在很多特殊任务的处理上会比同规模的其他不是 Moe架构的模型要强很多。它也支持图像的多模态识别，比如我这里在出租车的时候拍了一张照片让它识别内容，它识别出了座位下面的报纸和前面的车座，同时还进行了一定的推理，判断出这个车可能是用来拉人的不是自用的。最后是海螺问问的整个UI细节和交互逻辑都是经过精细打磨过的，比如输入框为了支持长内容输入是可以展开的，而且支持按住Command 加上回车换行，从Web到移动端非常一致且有温度的UI界面样式。另外海螺问问现在也是免费的，尤其是语音能力的加持让他的使用场景变得更多了，如果你不方便使用或者嫌 ChatGPT 慢的话，可以试试跟海螺问问聊聊。这里使用：

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能穆拉提在 OpenAI 办公室举行的主题演讲上说：GPT-4o 的理由横跨语音、文本和视觉。OpenAI 将发布桌面版 ChatGPT 和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与GPT的协作。这一点非常重要，因为我们正在展望人类与机器之间互动的未来。"GPT-4是OpenAI之前的领先模型，它是图像和文本的结合体，可以分析图像和文本，完成从图像中提取文本甚至描述图像内容等任务。但 GPT-4o 增加了语音功能。这具体能带来什么？很多方面。GPT-4o 极大地改善了 ChatGPT 的体验ChatGPT 是 OpenAI 的病毒式人工智能聊天机器人。ChatGPT 长期以来一直提供语音模式，使用文本到语音模式转录 ChatGPT 中的文本。但 GPT-4o 对此进行了改进，让用户可以更像使用助手一样与 ChatGPT 互动。例如，用户可以向由 GPT-4o 支持的 ChatGPT 提问，并在 ChatGPT 回答时打断它。OpenAI 表示，该模型能提供 "实时 "响应，甚至能捕捉用户声音中的情感，并生成 "一系列不同情感风格 "的语音。GPT-4o 还改进了 ChatGPT 的视觉功能。有了照片或桌面屏幕，ChatGPT 现在可以快速回答相关问题，从 "这个软件代码是怎么回事 "到 "这个人穿的是什么牌子的衬衫？其他方面，OpenAI 将发布桌面版 ChatGPT 和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与 [GPT] 的协作。" ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人