ChatGPT推出语音和图像功能现在可以用不同形式的命令向AI提问

ChatGPT推出语音和图像功能现在可以用不同形式的命令向AI提问据OpenAI称，新功能将在未来两周内向付费使用ChatGPT的用户推出，"不久之后"其他用户也将获得新功能。语音聊天部分让人非常熟悉：你点击一个按钮并说出你的问题，ChatGPT会将其转换为文本并将其输入大型语言模型，然后得到答案，再将其转换为语音，并大声说出答案。这种感觉就像与Alexa或Google助手交谈一样，只是OpenAI希望，由于底层技术的改进，答案会更好。大多数虚拟助手似乎都在依靠LLM进行改造，而OpenAI则走在了前面。OpenAI出色的Whisper模型完成了大量的语音转文本工作，而且该公司正在推出一种新的文本转语音模型，据称它可以"通过文本和几秒钟的语音样本生成类似人类的音频"。你可以从五个选项中选择ChatGPT的声音，但OpenAI似乎认为该模型的潜力远不止于此。例如，OpenAI正在与Spotify合作，将播客翻译成其他语言，同时保持播客的声音。合成语音有很多有趣的用途，OpenAI可以成为该行业的重要组成部分。但事实上，只需几秒钟的音频就能建立一个有能力的合成语音，这也为各种有问题的用例打开了大门。该公司在一篇宣布新功能的博文中说："这些功能也带来了新的风险，比如恶意行为者有可能冒充公众人物或实施欺诈。正是出于这个原因，OpenAI才没有广泛使用这种模式：它将受到更严格的控制，并仅限于特定的使用案例和合作关系。"与此同时，图片搜索有点像GoogleLens。你只需拍下感兴趣的照片，ChatGPT就会找出你的问题所在，并做出相应的回应。你还可以使用该应用的绘图工具来帮助清楚地表达你的疑问，或者根据图片说出或输入问题。这就是ChatGPT来来回回的特性所带来的帮助：你可以一边提示机器人，一边完善答案，而不是先搜索，得到错误答案后再搜索。(这与Google在多模态搜索方面的做法很相似）。显然，图像搜索也有其潜在的问题。其一是当你向聊天机器人提示一个人时，可能会发生什么：OpenAI表示，出于准确性和隐私方面的考虑，它有意限制了ChatGPT"分析和直接陈述人的能力"。这意味着人工智能最科幻的愿景之一--看着一个人说："那是谁？-这种能力不会很快实现。这也许是件好事。在ChatGPT首次发布近一年后，OpenAI似乎仍在努力探索如何为其机器人提供更多特性和功能，同时又不带来新的问题和弊端。在这些版本中，该公司试图通过故意限制其新机型的功能来实现这一目标。但这种方法不会永远奏效。随着越来越多的人使用语音控制和图像搜索，随着ChatGPT逐步成为一个真正多模式、实用的虚拟助手，要想继续保持护栏就会越来越难。...PC版：https://www.cnbeta.com.tw/articles/soft/1386261.htm手机版：https://m.cnbeta.com.tw/view/1386261.htm

在Telegram中查看

相关推荐

ChatGPT 的语音功能现向所有免费用户开放

ChatGPT的语音功能现向所有免费用户开放ChatGPT的语音功能现已免费向所有用户开放。在X上的一篇推文中，OpenAI宣布用户现在可以点击耳机图标，在移动应用中使用语言与ChatGPT对话，并获得语音回应今年9月，OpenAI首次推出了用语音和图像提示ChatGPT的功能，但该功能只对付费用户开放。在推文示例中，OpenAI还对近期发生的事情开了一个笑话，有人问ChatGPT：“团队度过了一个漫长的夜晚，我们都饿了。我应该为778人点多少份16英寸的披萨？”这个人数与OpenAI员工人数大致一样，其中大部分人已签署公开信，要求解散董事会，不然就辞职。——、（提示：）

chatGPT即将到来的新功能演示。

chatGPT即将到来的新功能演示。OpenAI发布了名为GPT-4o的新旗舰生成式人工智能模型，并将在未来几周内在公司面向开发者和消费者的产品中"迭代"推出。OpenAI首席技术官穆拉提说，GPT-4o提供了"GPT-4级"的智能，但改进了GPT-4在文本、视觉和音频方面的能力："GPT-4o的理由横跨语音、文本和视觉。”GPT-4o大大改善了ChatGPT的体验。ChatGPT提供语音模式，使用文本到语音模型转录为ChatGPT中的文本。GPT-4o对此进行了强化，允许用户像对待语音助手一样与ChatGPT互动。例如，用户可以向由GPT-4o支持的ChatGPT提问，并在ChatGPT回答时打断它。OpenAI将发布桌面版ChatGPT，并更新用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验实际上变得更加自然、轻松，让你完全不用关注用户界面，而只关注与（GPT）的协作。”

OpenAI 推迟发布 ChatGPT 的语音助手功能

OpenAI推迟发布ChatGPT的语音助手功能OpenAI推迟发布备受期待的ChatGPT语音助手功能，以确保它能够安全有效地处理来自数百万用户的请求。该公司在5月份的产品发布会上为GPT-4o推出了语音选项。OpenAI表示，它原本打算在6月底向一小部分付费ChatGPTplus用户推出语音功能，但后来认为还需要一个月的时间才能“达到我们的标准”。“我们正在提高该模型检测和拒绝某些内容的能力，”该公司周二表示。此举意味着OpenAI可能遭遇挫折，该公司正努力在日益激烈的人工智能竞争中保持领先地位。

OpenAI推出ChatGPT语音功能并就其公司内斗开了个玩笑

OpenAI推出ChatGPT语音功能并就其公司内斗开了个玩笑今年9月，OpenAI首次推出了用语音和图像提示ChatGPT的功能，但该功能只对付费用户开放。该功能发布之际，OpenAI的员工正在为其首席执行官的突然下台而苦苦挣扎，同时也在为他的回归进行混乱的谈判。OpenAI在X上发布的演示甚至还拿正在进行的这场闹剧开了个玩笑，这场闹剧在过去几天里一直持续到深夜。在这个例子中，有人问ChatGPT："对团队来说，这是一个漫长的夜晚，我们饿了。我应该为778人点多少份16英寸的披萨？"OpenAI拥有大致相同数量的员工，其中大部分人最近威胁说，除非整个董事会辞职，否则他们就辞职。上周，OpenAI董事会解雇了联合创始人兼首席执行官山姆-阿尔特曼（SamAltman），因为董事会成员发现"他在与董事会的沟通中没有始终保持坦诚"。此后，微软首席执行官萨提亚-纳德拉（SatyaNadella）邀请阿尔特曼和他的团队成员在这家科技巨头成立一个新部门，但阿尔特曼可能会重返OpenAI。前OpenAI总裁格雷格-布罗克曼（GregBrockman）在奥特曼下台后辞职，他在X上转发了OpenAI的公告，并表示："试一试吧--完全改变了ChatGPT的体验。"值得注意的是，Brockman也对重返OpenAI持开放态度。...PC版：https://www.cnbeta.com.tw/articles/soft/1398839.htm手机版：https://m.cnbeta.com.tw/view/1398839.htm

OpenAI官宣推出多模态ChatGPT 能看、能听、还会说

OpenAI官宣推出多模态ChatGPT能看、能听、还会说（来源：OpenAI）ChatGPT此前曾推出过能上传图片的“代码解释器“功能，具备了一些初步处理图像和文本照片的能力。但毫无疑问，今天这个“随手拍、随心问”才更贴近大多数用户的AI助手使用场景。拍张冰箱照片告诉你今晚吃啥按照标题的顺序，今天更新的功能主要有两点：基于图片的对话，以及实时语音对话。先说关注度非常高的图片聊天功能。按照OpenAI的说法，用户现在可以拍一张冰箱的照片，然后让ChatGPT来推荐菜谱；在旅行时拍摄一张地标的照片，让ChatGPT来讲述这处景点的有趣之处。当然，也能拍一张数学题的照片，让ChatGPT来解答。在官方给出的例子中，给到ChatGPT一张自行车的照片，问它如何把座椅调低。然后ChatGPT表示看你车的型号，有的车有快拆杆，有的是用螺栓固定，然后给出了详细的步骤。随后官方装作不懂，拍了一张螺栓的照片，并用官方画图工具圈出来以示强调，然后问ChatGPT这是不是快拆杆。ChatGPT表示你这个是螺栓，得去找一个内六角扳手。随后官方又拍了一张工具箱的照片，问ChatGPT到底是哪一个扳手。ChatGPT也顺利地认出了扳手，并准确提示用户到底要拿哪一个尺寸。ChatGPT会说话啦！除此之外，OpenAI也将语音识别、转录和音频生成功能打包，推出了AI语音聊天的功能，这项功能只适用于iOS和安卓客户端。官方表示，用户可以用这项功能为家里的小孩讲睡前故事。或者家里吃着饭，突然为某个问题吵起架来，这个时候就可以把ChatGPT拍在桌面上解决争论。OpenAI介绍称，这项功能使用了Whisper开源语音识别系统，将用户说的话转录成文本。同时还用上了一项新的文本转语音模型，并与专业配音演员合作，提供5种可供用户自行选择的声音。更先进的AI也有新的风险和局限性OpenAI表示，新的语音技术能够仅通过几秒钟的真实语音创造出逼真的合成声音。这种功能打开了创造力的大门，也带来了新的风险——例如不法分子可能伪造公众人物进行欺诈。所以OpenAI的决策是通过“语音聊天”这样的特定用例来推出这项功能。同时OpenAI也在与更多的机构展开合作。例如流媒体公司Spotify就在试用这项功能来进行语音翻译，通过使用播客主持人的声音将播客音频翻译成其他语言，帮助播客主持人扩大他们的全球影响力。图像也会带来新的挑战，例如幻觉问题，以及使用者在高风险领域却依赖模型对图像的解释。因此在上线前，OpenAI也对极端主义和科学能力等领域进行了风险测试。另外对看到这篇文章的中文读者来说，图片对话的体验大概率值得期待，但语音对话可能要打一些折扣。OpenAI表示，该模型擅长转录英文文本，但在一些其他语言，特别是那些使用非罗马字母的语言中表现不佳，建议非英语用户不要使用ChatGPT来进行此类用途。...PC版：https://www.cnbeta.com.tw/articles/soft/1386295.htm手机版：https://m.cnbeta.com.tw/view/1386295.htm

ChatGPT 现在可以看到、听到和说话 —— GPT-4 多模态版本上线

ChatGPT现在可以看到、听到和说话——GPT-4多模态版本上线OpenAI开始在ChatGPT中推出新的语音和图像功能，允许您进行语音对话或向ChatGPT展示画面。Plus和企业用户将在未来两周内体验语音和图像，不久后推出给其他用户组，包括开发人员。图像理解由多模态GPT-3.5和GPT-4提供支持，你现在可以向ChatGPT展示一个或多个图像。这些模型可以将其语言推理技能应用于各种图像，例如照片、屏幕截图以及包含文本和图像的文档。文本转语音由新的模型提供支持，它能够从几秒钟的真实语音中制作出逼真的合成语音。ChatGPT的预设语音来自直接合作的专业配音演员。语音转文本由OpenAIWhisper模型支持。投稿：@ZaiHuaBot频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人