能听懂口音的开源语音系统来了:OpenAI出品 支持99种语言

能听懂口音的开源语音系统来了:OpenAI出品支持99种语言逼近人类水平的语音识别系统来了?没错,OpenAI新开源了一个名为「Whisper」的新语音识别系统,据称在英文语音识别方面拥有接近人类水平的鲁棒性和准确性!不仅如此,对于不同口音、专业术语的识别效果也是杠杠的!一经发布就在推特上收获4800+点赞,1000+转发。PC版:https://www.cnbeta.com/articles/soft/1320233.htm手机版:https://m.cnbeta.com/view/1320233.htm

相关推荐

封面图片

OpenAI宣布开源多语言语音识别系统Whisper

OpenAI宣布开源多语言语音识别系统Whisper尽管包括Google、亚马逊和Meta在内的科技巨头,都将各自开发的功能强大的语音识别系统置于其软件和服务的核心地位。但在人工智能和机器学习领域,语音识别仍是一个颇具挑战性的话题。好消息是,今日OpenAI隆重地宣布了Whisper的开源——可知作为一套自动语音识别系统,官方宣称它能够实现多种语言的强大转录、并将它们翻译成英语。PC版:https://www.cnbeta.com/articles/soft/1319379.htm手机版:https://m.cnbeta.com/view/1319379.htm

封面图片

AI通过宗教打通人类语言障碍:Meta 开源发布支持1100-4000种语言的语音技术

AI通过宗教打通人类语言障碍:Meta开源发布支持1100-4000种语言的语音技术MassivelyMultilingualSpeech(MMS)支持1107种语言的STT(语音转文本)和TTS(文本转语音),可识别4017种口头语言。模型和代码在CC-BY-NC4.0协议下开源,单词错误率只有OpenAIWhisper的一半。"现有的语音识别模型和语音数据集仅涵盖大约100种语言——地球已知7000多种语言的一小部分。更令人担忧的是,这些语言中将近一半可能会在我们有生之年消失。通过这项工作,我们希望为保护世界语言多样性做出一点贡献。"为收集数千种语言的音频数据Meta求助了《圣经》等宗教文本,这些文本已被翻译成了多种不同语言,并且已被广泛用于语言翻译研究,这些翻译的公开录音记录了人们用不同语言阅读这些文本的情况。通过1100多种语言的新约读物数据和4000多种其它基督宗教读物的无标签录音,Meta成功将语言覆盖扩展为了此前10倍。——频道:@TestFlightCN

封面图片

OpenAI官宣推出多模态ChatGPT 能看、能听、还会说

OpenAI官宣推出多模态ChatGPT能看、能听、还会说(来源:OpenAI)ChatGPT此前曾推出过能上传图片的“代码解释器“功能,具备了一些初步处理图像和文本照片的能力。但毫无疑问,今天这个“随手拍、随心问”才更贴近大多数用户的AI助手使用场景。拍张冰箱照片告诉你今晚吃啥按照标题的顺序,今天更新的功能主要有两点:基于图片的对话,以及实时语音对话。先说关注度非常高的图片聊天功能。按照OpenAI的说法,用户现在可以拍一张冰箱的照片,然后让ChatGPT来推荐菜谱;在旅行时拍摄一张地标的照片,让ChatGPT来讲述这处景点的有趣之处。当然,也能拍一张数学题的照片,让ChatGPT来解答。在官方给出的例子中,给到ChatGPT一张自行车的照片,问它如何把座椅调低。然后ChatGPT表示看你车的型号,有的车有快拆杆,有的是用螺栓固定,然后给出了详细的步骤。随后官方装作不懂,拍了一张螺栓的照片,并用官方画图工具圈出来以示强调,然后问ChatGPT这是不是快拆杆。ChatGPT表示你这个是螺栓,得去找一个内六角扳手。随后官方又拍了一张工具箱的照片,问ChatGPT到底是哪一个扳手。ChatGPT也顺利地认出了扳手,并准确提示用户到底要拿哪一个尺寸。ChatGPT会说话啦!除此之外,OpenAI也将语音识别、转录和音频生成功能打包,推出了AI语音聊天的功能,这项功能只适用于iOS和安卓客户端。官方表示,用户可以用这项功能为家里的小孩讲睡前故事。或者家里吃着饭,突然为某个问题吵起架来,这个时候就可以把ChatGPT拍在桌面上解决争论。OpenAI介绍称,这项功能使用了Whisper开源语音识别系统,将用户说的话转录成文本。同时还用上了一项新的文本转语音模型,并与专业配音演员合作,提供5种可供用户自行选择的声音。更先进的AI也有新的风险和局限性OpenAI表示,新的语音技术能够仅通过几秒钟的真实语音创造出逼真的合成声音。这种功能打开了创造力的大门,也带来了新的风险——例如不法分子可能伪造公众人物进行欺诈。所以OpenAI的决策是通过“语音聊天”这样的特定用例来推出这项功能。同时OpenAI也在与更多的机构展开合作。例如流媒体公司Spotify就在试用这项功能来进行语音翻译,通过使用播客主持人的声音将播客音频翻译成其他语言,帮助播客主持人扩大他们的全球影响力。图像也会带来新的挑战,例如幻觉问题,以及使用者在高风险领域却依赖模型对图像的解释。因此在上线前,OpenAI也对极端主义和科学能力等领域进行了风险测试。另外对看到这篇文章的中文读者来说,图片对话的体验大概率值得期待,但语音对话可能要打一些折扣。OpenAI表示,该模型擅长转录英文文本,但在一些其他语言,特别是那些使用非罗马字母的语言中表现不佳,建议非英语用户不要使用ChatGPT来进行此类用途。...PC版:https://www.cnbeta.com.tw/articles/soft/1386295.htm手机版:https://m.cnbeta.com.tw/view/1386295.htm

封面图片

OpenAI 低价倾销 ChatGPT API

OpenAI低价倾销ChatGPTAPIOpenAI向开发者释放了它的ChatGPT和Whisper模型,他们现在可以通过API调用将这个聊天机器人互动和语音到文本转换整合到自己的应用程序中。新的ChatGPTAPI将使用与ChatGPT相同的人工智能模型,其API的价格为每1000个字元(约750个单词)0.2美分。OpenAI称这比以前的GPT模型便宜10倍。Whisper是去年9月发布的一个自动语音识别系统,它能够将英语口语转化为文本。Whisper的价格为0.6美分/分钟。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

OpenAI展示语音生成“武器库”:太强大以至于无法推广

OpenAI展示语音生成“武器库”:太强大以至于无法推广OpenAI称,公司在2022年底就启动了VoiceEngine的研发工作,并将它用作一些其他功能的预设语音。由于合成语音可能会被滥用,公司只在小范围内与开发人员分享了该模型,未来可能不会广泛推出这一功能。新闻稿写道,儿童教育技术公司AgeofLearning正在使用这个模型来生成一些预先编写好的内容,并且还结合GPT-4创建实时的响应来与学生互动。在案例中,OpenAI放出了一段英语男声和西班牙语女声的样本音频,并用两段音频各生成了讲解知识的语音。另外,数字人视频生成初创公司HeyGen也采用了这项技术。HeyGen可以根据内容创建定制的数字人化身,而VoiceEngine可以将样本的声音转换成多种其他语言,来帮助产品营销到销售演示。新闻稿提到,在转换语言时,VoiceEngine会保留原始说话者的母语口音,例如样本中的人使用的是法语,那么生成的英语将带有法国口音。本周早些时候,有消息称HeyGen正在进行新一轮融资,投前估值达到4.4亿美元。除此以外,OpenAI还展示了生成较小语系和孤立语系声音的能力,以帮助落后地区的社区卫生工作者;同时还与神经科学研究所探索AI在临床环境中的应用,比如帮助语言障碍者等用途。“太强大了导致无法推广”OpenAI写道,“我们认识到,生成声音的功能存在严重风险,这一点在大选年尤为突出。我们正在与来自政府、媒体、娱乐、教育等领域的国际合作伙伴合作,以确保我们在建设过程中吸收他们的反馈。”OpenAI产品负责人JeffHarris告诉媒体,“如果你能正确地设置音频,基本上就能生成人类口径的声音,这是一种相当令人印象深刻的技术。”但Harris提到,准确模仿人类语音的能力确实存在安全隐患。今年1月,美国就出现“AI拜登”事件,由AI生成的“假拜登”在电话中用逼真的声音鼓励可能支持民主党的5000位选民在新罕布什尔州初选中不要投票。本月早些时候,拜登呼吁国会通过立法来监管AI,包括禁止“AI语音模仿”等。在测试计划中,OpenAI要求其合作伙伴遵守其制定的使用政策:在使用语音样本之前要征得声音主人的同意,并明确告诉听众声音是AI生成的。该公司还在安装一种听不见的音频水印,以区分音频是否是由其工具创建的。OpenAI写道,“无论我们最终是否会广泛部署这项技术,让全球各地的人们了解这个发展方向都是非常重要的。”...PC版:https://www.cnbeta.com.tw/articles/soft/1425570.htm手机版:https://m.cnbeta.com.tw/view/1425570.htm

封面图片

OpenAI 公司在中国申请注册 GPT-4 商标

OpenAI公司在中国申请注册GPT-4商标欧爱运营有限责任公司(OPENAIOPCO,LLC)近期申请注册了“GPT-4”商标,国际分类为科学仪器,当前商标状态为申请中。此前,该公司还申请注册了一枚国际分类为网站服务的“WHISPER”商标(IT之家注:Whisper为OpenAI此前发布的神经网络,声称其在英语语音识别方面已接近人类水平)。不久前,OpenAI发布了多模态预训练大模型GPT-4,与ChatGPT所用的模型相比,GPT-4不仅能够处理图像内容,且回复的准确性有所提高。目前,GPT-4仅向ChatGPTPlus的付费订阅用户及企业和开发者开放。GPT-4实现了以下几个方面的飞跃式提升:更聪明,做题水平越来越好;支持图像输入,拥有强大的识图能力,但目前只限内部测试;更长的上下文,文字输入限制提升至2.5万字;回答准确性显著提高;更安全,有害信息更少。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人