亚马逊正在改进其语音助手Alexa的语音识别软件,将能根据声音识别用户。这项功能在内部被称为VoiceID,根据预先录下的声音的声纹识别谁在说话。这项技术应该和科大讯飞的声纹识别技术相似……https://www.facebook.com/iyouport/posts/1442237082474098

None

相关推荐

封面图片

视频转声音技术可帮助盲人识别人脸

视频转声音技术可帮助盲人识别人脸有趣的是,2009年的一项研究还发现,即使人们看到的东西看起来有点像人脸,FFA也会被激活--因此它参与了"幻视"现象,即我们在无生命的物体上看到人脸。当人们开始发展某一特定领域的专业知识时,同一区域也会开始激活,例如,这显然有助于汽车疯子通过视觉区分不同的车型,或帮助国际象棋专家识别棋盘上熟悉的构型。2020年,麻省理工学院的研究将盲人置于fMRI扫描仪中,让他们感受各种3D打印的形状,包括脸、手、椅子和迷宫,结果发现,触摸这些小脸也会以类似的方式激活FFA。观看示意性面孔的受试者纺锤形面区的视觉激活图/乔治敦大学因此,从某种意义上说,FFA似乎并不在乎是哪个感觉系统向它提供了与脸部有关的信息--乔治敦大学医学中心神经科学小组的最新研究为这一假设提供了证据。该团队招募了6名盲人和10名视力正常的受试者,并开始使用"感觉替代装置"对他们进行训练。该装置包括一个头戴式摄像机、蒙眼目镜、一副耳机和一台处理计算机,处理计算机将摄像机的输入转换成音频,将视野分割成一个64像素的网格,并赋予每个像素各自的听觉音调。研究论文描述,如果图像只是位于摄像机视野右上角的一个点,相关的声音将是高频率的,主要通过右耳机传递。如果点位于视野的中上部,声音将是高频音,但通过左右耳机发出的音量相同。如果图像是左下角的一条线,相关的声音将是低频的混合物,主要通过左耳机发出。受试者用这些设备进行了10次每次一小时的训练,学习用耳朵"看",同时左右移动头部。卡片上会出现一些简单的图形;水平线和垂直线、不同形状的房子、几何图形以及基本的表情符号式喜怒哀乐表情。这是一个相当困难的训练过程,但在训练结束时,所有受试者识别简单形状的准确率都超过了85%。感官替代装置的分辨率仅为64像素。右下方是向受试者展示的一些形状。在fMRI仪器上进行形状识别测试时,当出现基本的脸部形状时,视力正常的受试者和失明的受试者都显示出FFA的激活。一些盲人受试者还能正确识别出人脸是喜脸还是愁脸--您可以从研究中一段45秒的音频片段中听到这一点,您也可以从这段片段中了解到该设备的声音。这项研究的资深作者、神经科学教授JosefRauschecker博士在一份新闻稿中说:"我们从盲人身上获得的结果表明,纺锤形脸部区域的发育并不取决于对实际视觉脸部的体验,而是取决于对脸部几何构型的接触,这种几何构型可以通过其他感官模式传达。"研究小组还发现,视力正常的受试者主要在右侧纺锤形面区出现激活,而失明的受试者则在左侧FFA区出现激活。Rauschecker说:"我们认为,盲人和非盲人之间的左右差异可能与左右两侧的纺锤形区域如何处理人脸有关--要么作为连接的模式,要么作为独立的部分,这可能是帮助我们完善感官替代装置的重要线索。"研究小组希望继续进行实验,有可能开发出分辨率更高的感官替代装置,最终让训练有素的受试者能够识别真实的人脸。需要提醒的是,像这样的图像声音转换设备在实际应用中可能不会有太大帮助--部分原因是它们需要大量的训练,部分原因是盲人已经非常依赖听力,不太可能希望额外的哔哔声和噗噗声扰乱他们对世界的感知。更不用说,随着深度学习多模态人工智能的兴起,已经有一些系统可以让GPT风格的语言模型查看图像或视频,并以人们喜欢的任何详细程度描述正在发生的事情。事实证明,这种自然语言解说比直接从视频到音频的馈送更容易实现、使用和满足个人需求。尽管如此,这仍然是非常吸引人的东西,它显示了两眼一嘴的老形状在我们的硬件中埋藏得有多深,以及这些形状对我们这种社会动物的重要性。这项研究已在《公共科学图书馆》(PLOS)杂志上公开发表。...PC版:https://www.cnbeta.com.tw/articles/soft/1400353.htm手机版:https://m.cnbeta.com.tw/view/1400353.htm

封面图片

-AI设备模板:集成Whisper语音识别、TTS文本转语音、Groq、Llama3、OpenAI等技术,打造智能语音助手,支持

封面图片

同一句话,用微信键盘语音识别根本识别不准,用语音转文字就一字不差,难道内部都没用相同的识别技术?

封面图片

百度在GitHub开源了一个语音合成与识别工具箱:,通过一行代码,即可快速实现中英文语音识别、合成、翻译等功能。针对此项目,开发者们将在本周开放几场公开课,主要讲解语音翻译、语音合成、声音分类等技术的开发与应用。

封面图片

一个帮助你集成人工智能和机器学习技术到虚幻引擎的UE插件,功能包括动作捕捉、面部表情捕捉、语音合成(TTS)、语音识别(ASR)

封面图片

微软GroupTranscribe:支持多人多语言会议,免费实时语音到文字转录并翻译#GroupTranscribe#APP[]采用微软人工智能语音技术,可以通过手机对会议不同发言者进行收音、语音识别、翻译及转录保存,免费•手撕客服的时候带上它

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人