实时目标声音提取该存储库为本文中提出的波形器架构提供了代码。波形器是一种实现流推理的低延迟目标声音提取模型该模型在每个时间步长处

实时目标声音提取 该存储库为本文中提出的波形器架构提供了代码。波形器是一种实现流推理的低延迟目标声音提取模型该模型在每个时间步长处理 ~10 毫秒的输入音频块,同时只查看过去的块,而不查看未来的块。在使用单线程的Core i5 CPU上,不同型号配置的实时因子(RTF)范围为0.66至0.94,端到端延迟小于20毫秒。 | #工具

相关推荐

封面图片

《变声大师》简介:一款专注于实时声音处理的应用工具,通过先进算法提供多样音效模式,适用于直播、游戏及语音社交等场景。用户可自由调

《变声大师》 简介:一款专注于实时声音处理的应用工具,通过先进算法提供多样音效模式,适用于直播、游戏及语音社交等场景。用户可自由调整音调、音色,创造独特声线,提升互动趣味性。支持多平台无缝切换,操作直观,满足个性化创意需求。 亮点:搭载AI智能变声技术,毫秒级延迟保障流畅体验;内置百种风格音效,涵盖卡通、影视、虚拟角色等类型;兼容主流社交与直播平台,一键切换适配场景。 标签: #实时变声#AI语音#音效库#多场景适配#变声大师#移动端#PC端 更新日期:2025-04-20 04:48:43 链接:https://pan.quark.cn/s/555efec087e6

封面图片

用你自己的声音说外语:跨语言神经编解码器语言模型 VALL-E X

用你自己的声音说外语:跨语言神经编解码器语言模型 VALL-E X 微软亚洲研究院发布 VALL-E 的扩展 VALL-E X,它可以通过一个几秒的源语音片段来生成目标语言的语音,同时保留说话者的声音、情感和声学环境。 VALL-E X 不需要说话人的跨语言语音进行训练即可执行各种语音生成任务,例如跨语言文本到语音、语音合成和语音到语音翻译。 VALL-E 基于 Meta 在2022年10月开源的 EnCodec 技术之上,同时在 Meta 组建的 LibriLight 音频库进行训练,音频库包含了来自7000多名演讲者的6万小时英语演讲,大部分来自 LibriVox 公共领域的有声读物。 中展示了"中文语音转英文语音"、"英文语音转中文语音"、"英语文本转中文语音"等各种场景。

封面图片

Roblox借助LLM语言模型发布实时人工智能聊天翻译器

Roblox借助LLM语言模型发布实时人工智能聊天翻译器 Roblox 首席技术官丹-斯特曼(Dan Sturman)说,该翻译器的目标是让Roblox用户更容易理解对方在说什么,从而让他们在相互交流时感觉更舒适。翻译器会自动翻译聊天内容,但用户可以点击图标查看原始信息。"我们知道,当用户用自己的语言与他人交谈或互动时,参与度就会提高,"Sturman 说。"我们借鉴了这一理念,并通过自动翻译消除了语言障碍。"Roblox 首先建立了一个基于转换器的大型语言模型 (LLM),该模型通过公开数据和内部数据进行训练。它将 LLM 置于一个专家混合(MoE)架构中,这是一个运行多个翻译应用程序的环境,每个应用程序都是一种语言的专家。Sturman 说,考虑到他们项目的规模,他的团队认为建立自己的模型比修改现成的 LLM 更容易。斯图尔曼说,Roblox 会监控聊天内容(出于信任和安全考虑),如果翻译不尽完美,可以得到反馈。他补充说,增加聊天翻译人工智能"不会改变我们的隐私和安全流程,违禁词语仍会被屏蔽"。Roblox 在过去几年中一直在努力吸引较为年长的用户,并一直在使用生成式人工智能模型来增强用户体验。去年,它为开发者推出了一款人工智能聊天机器人助手,还能自动将图像资产(如建筑物上的文字)翻译成用户的默认语言。斯图尔曼希望翻译模式最终能超越单纯的文本聊天翻译。"未来,我们可以使用人工智能将不合规的[违禁]词语翻译成合规词语,或者将其用于语音聊天的实时语音翻译,还有很多可能性。"其他公司也在开发人工智能翻译模型。Meta 发布了语音到文本和文本到文本的翻译器 SeamlessM4T,可处理近 100 种语言。Google的通用语音模型也能翻译约 100 种语言,并已部署在 YouTube 上翻译字幕。 ... PC版: 手机版:

封面图片

科学家设计出一种可在拥挤的空间中用眼神分离出特定声音的AI耳机

科学家设计出一种可在拥挤的空间中用眼神分离出特定声音的AI耳机 华盛顿大学保罗-艾伦计算机科学与工程学院教授、本研究的资深作者希亚姆-戈拉科塔(Shyam Gollakota)说:"我们现在往往认为人工智能是基于网络的聊天机器人,可以回答问题。但在这个项目中,我们开发的人工智能可以根据佩戴耳机的人的喜好,改变他们的听觉感知。有了我们的设备,即使你身处嘈杂的环境中,有很多其他人在说话,你现在也能清楚地听到单个扬声器的声音。"这种耳机配有麦克风和一个按钮 华盛顿大学研究人员开发的"目标语音听力"(THS)系统简单而有效。现成的耳机装有两个麦克风,每个耳罩上一个。佩戴者看着想要听到的人,按一次耳机侧面的按钮,持续三到五秒钟。说话者的声波会同时传到两个麦克风上(误差范围为 16 度),然后被发送到机载计算机上,由机器学习软件学习说话者的发声模式。然后,说话者的声音就会被分离出来,并通过耳机传送,即使他们走动时也是如此,无关的噪音也会被过滤掉。下面的视频展示了耳机的功效。它能快速过滤环境噪声,将注意力集中在扬声器上,消除附近(室内)有人讲电话和室外喷泉发出的嘈杂声。人工智能能以多快的速度处理说话者的声音并消除不想要的声音?研究人员在测试时发现,他们的系统的端到端延迟时间为 18.24 毫秒。相比之下,眼睛眨一下的时间在 300 到 400 毫秒之间。这就意味着,从看着你想听的人到耳机里只听到他的声音之间几乎没有延迟时间,一切都是实时发生的。他们让 21 名受试者体验了 THS 系统,受试者对耳机在真实的室内和室外环境中提供的噪音抑制效果进行了评分。平均而言,受试者对说话者声音清晰度的评分是未处理时的两倍。他们的THS系统建立在华盛顿大学研究人员之前开发的"语义听觉"技术基础之上。与 THS 一样,该技术使用的是智能手机上运行的人工智能算法,该算法与降噪耳机无线连接。语义听觉系统可以准确识别鸟鸣、警报和报警等噪音。目前,新系统一次只能过滤一个目标扬声器,而且只能在与扬声器同一方向没有其他大音量声音时过滤。但如果耳机佩戴者对音质不满意,他们可以对扬声器的声音重新采样,以提高清晰度。研究人员正在努力将他们的系统扩展到耳塞和助听器。他们还在 GitHub 上公开了 THS 代码,以便其他人在此基础上进行开发。该系统尚未投入商业使用。本月早些时候,研究人员在夏威夷檀香山举行的美国计算机协会(Association of Computing Machinery,ACM)计算机-人交互(Computer-Human Interaction,CHI)会议上介绍了他们的研究成果,并获得了荣誉奖。未发表的研究论文可在此处查阅。 ... PC版: 手机版:

封面图片

DeepL 近日宣布推出 DeepL Write Pro 人工智能写作助手。该助手是首个由 DeepL 自研大语言模型提供支持的

DeepL 近日宣布推出 DeepL Write Pro 人工智能写作助手。该助手是首个由 DeepL 自研大语言模型提供支持的服务。 DeepL 表示,不同于传统生成式人工智能工具,也不同于基于规则的语法纠正工具,DeepL Write Pro 在用户起草过程中进行创意辅助,通过人工智能实时提供选词、措辞、风格和语气建议,以提升文本质量。 DeepL 还宣称,无论用户的语言熟练程度如何,这一工具都能找到适合目标场景的用词。 此外,DeepL Write Pro 也面向商用场景设计,为企业用户提供包括 TLS 加密和文本删除在内的数据安全功能。 DeepL Write Pro 目前支持英语和德语,未来将扩展到更多语言。该工具可在 Web 端、应用程序、浏览器插件中使用,也已集成到 Microsoft 365 和 Google Workspace 办公套件中。 根据德媒 ComputerBase 的消息,该订阅服务定价每月 10 欧元。 标签: #DeepL #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

Meta-Speaker:一种仅在空气中的一个点发出声音的扬声器。清华大学和上海交通联合开发出一种新型音响系统。

Meta-Speaker:一种仅在空气中的一个点发出声音的扬声器。清华大学和上海交通大学联合开发出一种新型音响系统。 它使用超音波在空气中的一个特定点产生声音。允许用户非常精细地控制声音出现的位置和范围。换句话说,你可以准确地指定声音应该在哪个位置被听到,而其他地方则不会听到这个声音。 工作原理: Meta-Speaker系统的工作原理基于声学非线性效应和超声波的交互。具体来说,系统使用两个或更多的高频声波(即超声波)从不同的方向发射。当这些超声波在空气中交叉或相遇时,由于声学非线性效应,它们会以特定的方式相互作用或“扭曲”。 例如,如果你将两块石头扔进池塘里,就会产生两个涟漪。在这些波纹相交的地方,波浪的形状会发生变化,使它们变大或变小。 这种相互作用产生了一个新的声波,其频率是原始超声波频率的差值。这个新产生的声波是在可听范围内的,因此人们可以听到它。更重要的是,这个可听声波是在超声波交叉的精确位置产生的,这意味着系统可以非常精确地控制声音在哪里产生。 例如,如果你想在一个房间的特定位置听到某个声音或信息,系统可以通过精确地调整超声波的方向和频率,确保可听声音仅在那个特定位置产生。 这种技术的一个关键优点是它能够在没有物理介质(如扬声器或其他声源)的情况下,在空气中的特定位置产生声音。这为各种应用,如室内导航、个性化信息传播等,提供了新的可能性。 这样的系统需要精确的计算和校准,以确保超声波能够在预定的位置交叉,并且产生的可听声音具有所需的属性(如音量、音调等)。因此,它可能需要高度复杂的算法和硬件支持。 技术步骤: 1、数据预处理:首先,对收集到的音频数据进行预处理,以便后续的特征提取和模型训练。 2、模型架构:Meta-Speaker使用了一种特定的神经网络架构,这种架构是为了适应边缘计算环境而特别设计的。 3、元学习训练:通过元学习的方法,模型能够快速适应新的说话人,即使只有少量的数据也能进行有效的识别。 4、边缘计算集成:由于模型是为边缘计算环境设计的,因此它是高效且轻量级的,适合在资源有限的设备上运行。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人