ChatGPT推出语音和图像功能 现在可以用不同形式的命令向AI提问

ChatGPT推出语音和图像功能现在可以用不同形式的命令向AI提问据OpenAI称,新功能将在未来两周内向付费使用ChatGPT的用户推出,"不久之后"其他用户也将获得新功能。语音聊天部分让人非常熟悉:你点击一个按钮并说出你的问题,ChatGPT会将其转换为文本并将其输入大型语言模型,然后得到答案,再将其转换为语音,并大声说出答案。这种感觉就像与Alexa或Google助手交谈一样,只是OpenAI希望,由于底层技术的改进,答案会更好。大多数虚拟助手似乎都在依靠LLM进行改造,而OpenAI则走在了前面。OpenAI出色的Whisper模型完成了大量的语音转文本工作,而且该公司正在推出一种新的文本转语音模型,据称它可以"通过文本和几秒钟的语音样本生成类似人类的音频"。你可以从五个选项中选择ChatGPT的声音,但OpenAI似乎认为该模型的潜力远不止于此。例如,OpenAI正在与Spotify合作,将播客翻译成其他语言,同时保持播客的声音。合成语音有很多有趣的用途,OpenAI可以成为该行业的重要组成部分。但事实上,只需几秒钟的音频就能建立一个有能力的合成语音,这也为各种有问题的用例打开了大门。该公司在一篇宣布新功能的博文中说:"这些功能也带来了新的风险,比如恶意行为者有可能冒充公众人物或实施欺诈。正是出于这个原因,OpenAI才没有广泛使用这种模式:它将受到更严格的控制,并仅限于特定的使用案例和合作关系。"与此同时,图片搜索有点像GoogleLens。你只需拍下感兴趣的照片,ChatGPT就会找出你的问题所在,并做出相应的回应。你还可以使用该应用的绘图工具来帮助清楚地表达你的疑问,或者根据图片说出或输入问题。这就是ChatGPT来来回回的特性所带来的帮助:你可以一边提示机器人,一边完善答案,而不是先搜索,得到错误答案后再搜索。(这与Google在多模态搜索方面的做法很相似)。显然,图像搜索也有其潜在的问题。其一是当你向聊天机器人提示一个人时,可能会发生什么:OpenAI表示,出于准确性和隐私方面的考虑,它有意限制了ChatGPT"分析和直接陈述人的能力"。这意味着人工智能最科幻的愿景之一--看着一个人说:"那是谁?-这种能力不会很快实现。这也许是件好事。在ChatGPT首次发布近一年后,OpenAI似乎仍在努力探索如何为其机器人提供更多特性和功能,同时又不带来新的问题和弊端。在这些版本中,该公司试图通过故意限制其新机型的功能来实现这一目标。但这种方法不会永远奏效。随着越来越多的人使用语音控制和图像搜索,随着ChatGPT逐步成为一个真正多模式、实用的虚拟助手,要想继续保持护栏就会越来越难。...PC版:https://www.cnbeta.com.tw/articles/soft/1386261.htm手机版:https://m.cnbeta.com.tw/view/1386261.htm

相关推荐

封面图片

ChatGPT 的语音功能现向所有免费用户开放

ChatGPT的语音功能现向所有免费用户开放ChatGPT的语音功能现已免费向所有用户开放。在X上的一篇推文中,OpenAI宣布用户现在可以点击耳机图标,在移动应用中使用语言与ChatGPT对话,并获得语音回应今年9月,OpenAI首次推出了用语音和图像提示ChatGPT的功能,但该功能只对付费用户开放。在推文示例中,OpenAI还对近期发生的事情开了一个笑话,有人问ChatGPT:“团队度过了一个漫长的夜晚,我们都饿了。我应该为778人点多少份16英寸的披萨?”这个人数与OpenAI员工人数大致一样,其中大部分人已签署公开信,要求解散董事会,不然就辞职。——、(提示:)

封面图片

chatGPT即将到来的新功能演示。

chatGPT即将到来的新功能演示。OpenAI发布了名为GPT-4o的新旗舰生成式人工智能模型,并将在未来几周内在公司面向开发者和消费者的产品中"迭代"推出。OpenAI首席技术官穆拉提说,GPT-4o提供了"GPT-4级"的智能,但改进了GPT-4在文本、视觉和音频方面的能力:"GPT-4o的理由横跨语音、文本和视觉。”GPT-4o大大改善了ChatGPT的体验。ChatGPT提供语音模式,使用文本到语音模型转录为ChatGPT中的文本。GPT-4o对此进行了强化,允许用户像对待语音助手一样与ChatGPT互动。例如,用户可以向由GPT-4o支持的ChatGPT提问,并在ChatGPT回答时打断它。OpenAI将发布桌面版ChatGPT,并更新用户界面。穆拉提说:"我们知道这些模型越来越复杂,但我们希望交互体验实际上变得更加自然、轻松,让你完全不用关注用户界面,而只关注与(GPT)的协作。”

封面图片

OpenAI 推迟发布 ChatGPT 的语音助手功能

OpenAI推迟发布ChatGPT的语音助手功能OpenAI推迟发布备受期待的ChatGPT语音助手功能,以确保它能够安全有效地处理来自数百万用户的请求。该公司在5月份的产品发布会上为GPT-4o推出了语音选项。OpenAI表示,它原本打算在6月底向一小部分付费ChatGPTplus用户推出语音功能,但后来认为还需要一个月的时间才能“达到我们的标准”。“我们正在提高该模型检测和拒绝某些内容的能力,”该公司周二表示。此举意味着OpenAI可能遭遇挫折,该公司正努力在日益激烈的人工智能竞争中保持领先地位。

封面图片

OpenAI推出ChatGPT语音功能 并就其公司内斗开了个玩笑

OpenAI推出ChatGPT语音功能并就其公司内斗开了个玩笑今年9月,OpenAI首次推出了用语音和图像提示ChatGPT的功能,但该功能只对付费用户开放。该功能发布之际,OpenAI的员工正在为其首席执行官的突然下台而苦苦挣扎,同时也在为他的回归进行混乱的谈判。OpenAI在X上发布的演示甚至还拿正在进行的这场闹剧开了个玩笑,这场闹剧在过去几天里一直持续到深夜。在这个例子中,有人问ChatGPT:"对团队来说,这是一个漫长的夜晚,我们饿了。我应该为778人点多少份16英寸的披萨?"OpenAI拥有大致相同数量的员工,其中大部分人最近威胁说,除非整个董事会辞职,否则他们就辞职。上周,OpenAI董事会解雇了联合创始人兼首席执行官山姆-阿尔特曼(SamAltman),因为董事会成员发现"他在与董事会的沟通中没有始终保持坦诚"。此后,微软首席执行官萨提亚-纳德拉(SatyaNadella)邀请阿尔特曼和他的团队成员在这家科技巨头成立一个新部门,但阿尔特曼可能会重返OpenAI。前OpenAI总裁格雷格-布罗克曼(GregBrockman)在奥特曼下台后辞职,他在X上转发了OpenAI的公告,并表示:"试一试吧--完全改变了ChatGPT的体验。"值得注意的是,Brockman也对重返OpenAI持开放态度。...PC版:https://www.cnbeta.com.tw/articles/soft/1398839.htm手机版:https://m.cnbeta.com.tw/view/1398839.htm

封面图片

OpenAI官宣推出多模态ChatGPT 能看、能听、还会说

OpenAI官宣推出多模态ChatGPT能看、能听、还会说(来源:OpenAI)ChatGPT此前曾推出过能上传图片的“代码解释器“功能,具备了一些初步处理图像和文本照片的能力。但毫无疑问,今天这个“随手拍、随心问”才更贴近大多数用户的AI助手使用场景。拍张冰箱照片告诉你今晚吃啥按照标题的顺序,今天更新的功能主要有两点:基于图片的对话,以及实时语音对话。先说关注度非常高的图片聊天功能。按照OpenAI的说法,用户现在可以拍一张冰箱的照片,然后让ChatGPT来推荐菜谱;在旅行时拍摄一张地标的照片,让ChatGPT来讲述这处景点的有趣之处。当然,也能拍一张数学题的照片,让ChatGPT来解答。在官方给出的例子中,给到ChatGPT一张自行车的照片,问它如何把座椅调低。然后ChatGPT表示看你车的型号,有的车有快拆杆,有的是用螺栓固定,然后给出了详细的步骤。随后官方装作不懂,拍了一张螺栓的照片,并用官方画图工具圈出来以示强调,然后问ChatGPT这是不是快拆杆。ChatGPT表示你这个是螺栓,得去找一个内六角扳手。随后官方又拍了一张工具箱的照片,问ChatGPT到底是哪一个扳手。ChatGPT也顺利地认出了扳手,并准确提示用户到底要拿哪一个尺寸。ChatGPT会说话啦!除此之外,OpenAI也将语音识别、转录和音频生成功能打包,推出了AI语音聊天的功能,这项功能只适用于iOS和安卓客户端。官方表示,用户可以用这项功能为家里的小孩讲睡前故事。或者家里吃着饭,突然为某个问题吵起架来,这个时候就可以把ChatGPT拍在桌面上解决争论。OpenAI介绍称,这项功能使用了Whisper开源语音识别系统,将用户说的话转录成文本。同时还用上了一项新的文本转语音模型,并与专业配音演员合作,提供5种可供用户自行选择的声音。更先进的AI也有新的风险和局限性OpenAI表示,新的语音技术能够仅通过几秒钟的真实语音创造出逼真的合成声音。这种功能打开了创造力的大门,也带来了新的风险——例如不法分子可能伪造公众人物进行欺诈。所以OpenAI的决策是通过“语音聊天”这样的特定用例来推出这项功能。同时OpenAI也在与更多的机构展开合作。例如流媒体公司Spotify就在试用这项功能来进行语音翻译,通过使用播客主持人的声音将播客音频翻译成其他语言,帮助播客主持人扩大他们的全球影响力。图像也会带来新的挑战,例如幻觉问题,以及使用者在高风险领域却依赖模型对图像的解释。因此在上线前,OpenAI也对极端主义和科学能力等领域进行了风险测试。另外对看到这篇文章的中文读者来说,图片对话的体验大概率值得期待,但语音对话可能要打一些折扣。OpenAI表示,该模型擅长转录英文文本,但在一些其他语言,特别是那些使用非罗马字母的语言中表现不佳,建议非英语用户不要使用ChatGPT来进行此类用途。...PC版:https://www.cnbeta.com.tw/articles/soft/1386295.htm手机版:https://m.cnbeta.com.tw/view/1386295.htm

封面图片

ChatGPT 现在可以看到、听到和说话 —— GPT-4 多模态版本上线

ChatGPT现在可以看到、听到和说话——GPT-4多模态版本上线OpenAI开始在ChatGPT中推出新的语音和图像功能,允许您进行语音对话或向ChatGPT展示画面。Plus和企业用户将在未来两周内体验语音和图像,不久后推出给其他用户组,包括开发人员。图像理解由多模态GPT-3.5和GPT-4提供支持,你现在可以向ChatGPT展示一个或多个图像。这些模型可以将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。文本转语音由新的模型提供支持,它能够从几秒钟的真实语音中制作出逼真的合成语音。ChatGPT的预设语音来自直接合作的专业配音演员。语音转文本由OpenAIWhisper模型支持。投稿:@ZaiHuaBot频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人