实时目标声音提取该存储库为本文中提出的波形器架构提供了代码。波形器是一种实现流推理的低延迟目标声音提取模型该模型在每个时间步长处

实时目标声音提取该存储库为本文中提出的波形器架构提供了代码。波形器是一种实现流推理的低延迟目标声音提取模型该模型在每个时间步长处理 ~10 毫秒的输入音频块，同时只查看过去的块，而不查看未来的块。在使用单线程的Core i5 CPU上，不同型号配置的实时因子（RTF）范围为0.66至0.94，端到端延迟小于20毫秒。 | #工具

在Telegram中查看

相关推荐

《变声大师》简介：一款专注于实时声音处理的应用工具，通过先进算法提供多样音效模式，适用于直播、游戏及语音社交等场景。用户可自由调

《变声大师》简介：一款专注于实时声音处理的应用工具，通过先进算法提供多样音效模式，适用于直播、游戏及语音社交等场景。用户可自由调整音调、音色，创造独特声线，提升互动趣味性。支持多平台无缝切换，操作直观，满足个性化创意需求。亮点：搭载AI智能变声技术，毫秒级延迟保障流畅体验；内置百种风格音效，涵盖卡通、影视、虚拟角色等类型；兼容主流社交与直播平台，一键切换适配场景。标签： #实时变声#AI语音#音效库#多场景适配#变声大师#移动端#PC端更新日期：2025-04-20 04:48:43 链接：https://pan.quark.cn/s/555efec087e6

用你自己的声音说外语：跨语言神经编解码器语言模型 VALL-E X

用你自己的声音说外语：跨语言神经编解码器语言模型 VALL-E X 微软亚洲研究院发布 VALL-E 的扩展 VALL-E X，它可以通过一个几秒的源语音片段来生成目标语言的语音，同时保留说话者的声音、情感和声学环境。 VALL-E X 不需要说话人的跨语言语音进行训练即可执行各种语音生成任务，例如跨语言文本到语音、语音合成和语音到语音翻译。 VALL-E 基于 Meta 在2022年10月开源的 EnCodec 技术之上，同时在 Meta 组建的 LibriLight 音频库进行训练，音频库包含了来自7000多名演讲者的6万小时英语演讲，大部分来自 LibriVox 公共领域的有声读物。中展示了"中文语音转英文语音"、"英文语音转中文语音"、"英语文本转中文语音"等各种场景。

Roblox借助LLM语言模型发布实时人工智能聊天翻译器

Roblox借助LLM语言模型发布实时人工智能聊天翻译器 Roblox 首席技术官丹-斯特曼（Dan Sturman）说，该翻译器的目标是让Roblox用户更容易理解对方在说什么，从而让他们在相互交流时感觉更舒适。翻译器会自动翻译聊天内容，但用户可以点击图标查看原始信息。"我们知道，当用户用自己的语言与他人交谈或互动时，参与度就会提高，"Sturman 说。"我们借鉴了这一理念，并通过自动翻译消除了语言障碍。"Roblox 首先建立了一个基于转换器的大型语言模型 (LLM)，该模型通过公开数据和内部数据进行训练。它将 LLM 置于一个专家混合（MoE）架构中，这是一个运行多个翻译应用程序的环境，每个应用程序都是一种语言的专家。Sturman 说，考虑到他们项目的规模，他的团队认为建立自己的模型比修改现成的 LLM 更容易。斯图尔曼说，Roblox 会监控聊天内容（出于信任和安全考虑），如果翻译不尽完美，可以得到反馈。他补充说，增加聊天翻译人工智能"不会改变我们的隐私和安全流程，违禁词语仍会被屏蔽"。Roblox 在过去几年中一直在努力吸引较为年长的用户，并一直在使用生成式人工智能模型来增强用户体验。去年，它为开发者推出了一款人工智能聊天机器人助手，还能自动将图像资产（如建筑物上的文字）翻译成用户的默认语言。斯图尔曼希望翻译模式最终能超越单纯的文本聊天翻译。"未来，我们可以使用人工智能将不合规的[违禁]词语翻译成合规词语，或者将其用于语音聊天的实时语音翻译，还有很多可能性。"其他公司也在开发人工智能翻译模型。Meta 发布了语音到文本和文本到文本的翻译器 SeamlessM4T，可处理近 100 种语言。Google的通用语音模型也能翻译约 100 种语言，并已部署在 YouTube 上翻译字幕。 ... PC版：手机版：

科学家设计出一种可在拥挤的空间中用眼神分离出特定声音的AI耳机

科学家设计出一种可在拥挤的空间中用眼神分离出特定声音的AI耳机华盛顿大学保罗-艾伦计算机科学与工程学院教授、本研究的资深作者希亚姆-戈拉科塔（Shyam Gollakota）说："我们现在往往认为人工智能是基于网络的聊天机器人，可以回答问题。但在这个项目中，我们开发的人工智能可以根据佩戴耳机的人的喜好，改变他们的听觉感知。有了我们的设备，即使你身处嘈杂的环境中，有很多其他人在说话，你现在也能清楚地听到单个扬声器的声音。"这种耳机配有麦克风和一个按钮华盛顿大学研究人员开发的"目标语音听力"（THS）系统简单而有效。现成的耳机装有两个麦克风，每个耳罩上一个。佩戴者看着想要听到的人，按一次耳机侧面的按钮，持续三到五秒钟。说话者的声波会同时传到两个麦克风上（误差范围为 16 度），然后被发送到机载计算机上，由机器学习软件学习说话者的发声模式。然后，说话者的声音就会被分离出来，并通过耳机传送，即使他们走动时也是如此，无关的噪音也会被过滤掉。下面的视频展示了耳机的功效。它能快速过滤环境噪声，将注意力集中在扬声器上，消除附近（室内）有人讲电话和室外喷泉发出的嘈杂声。人工智能能以多快的速度处理说话者的声音并消除不想要的声音？研究人员在测试时发现，他们的系统的端到端延迟时间为 18.24 毫秒。相比之下，眼睛眨一下的时间在 300 到 400 毫秒之间。这就意味着，从看着你想听的人到耳机里只听到他的声音之间几乎没有延迟时间，一切都是实时发生的。他们让 21 名受试者体验了 THS 系统，受试者对耳机在真实的室内和室外环境中提供的噪音抑制效果进行了评分。平均而言，受试者对说话者声音清晰度的评分是未处理时的两倍。他们的THS系统建立在华盛顿大学研究人员之前开发的"语义听觉"技术基础之上。与 THS 一样，该技术使用的是智能手机上运行的人工智能算法，该算法与降噪耳机无线连接。语义听觉系统可以准确识别鸟鸣、警报和报警等噪音。目前，新系统一次只能过滤一个目标扬声器，而且只能在与扬声器同一方向没有其他大音量声音时过滤。但如果耳机佩戴者对音质不满意，他们可以对扬声器的声音重新采样，以提高清晰度。研究人员正在努力将他们的系统扩展到耳塞和助听器。他们还在 GitHub 上公开了 THS 代码，以便其他人在此基础上进行开发。该系统尚未投入商业使用。本月早些时候，研究人员在夏威夷檀香山举行的美国计算机协会（Association of Computing Machinery，ACM）计算机-人交互（Computer-Human Interaction，CHI）会议上介绍了他们的研究成果，并获得了荣誉奖。未发表的研究论文可在此处查阅。 ... PC版：手机版：

DeepL 近日宣布推出 DeepL Write Pro 人工智能写作助手。该助手是首个由 DeepL 自研大语言模型提供支持的

DeepL 近日宣布推出 DeepL Write Pro 人工智能写作助手。该助手是首个由 DeepL 自研大语言模型提供支持的服务。 DeepL 表示，不同于传统生成式人工智能工具，也不同于基于规则的语法纠正工具，DeepL Write Pro 在用户起草过程中进行创意辅助，通过人工智能实时提供选词、措辞、风格和语气建议，以提升文本质量。 DeepL 还宣称，无论用户的语言熟练程度如何，这一工具都能找到适合目标场景的用词。此外，DeepL Write Pro 也面向商用场景设计，为企业用户提供包括 TLS 加密和文本删除在内的数据安全功能。 DeepL Write Pro 目前支持英语和德语，未来将扩展到更多语言。该工具可在 Web 端、应用程序、浏览器插件中使用，也已集成到 Microsoft 365 和 Google Workspace 办公套件中。根据德媒 ComputerBase 的消息，该订阅服务定价每月 10 欧元。标签: #DeepL #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

一种新的海军武器，旨在阻止你说话…… 很可能作为镇压抗议活动的武器

一种新的海军武器，旨在阻止你说话…… 很可能作为镇压抗议活动的武器美国海军已经成功发明了一种特殊的电子装置，旨在阻止人们说话。作为一种 “非致命性武器”，这种新的电子设备在说话者试图说话时，有效地将他们自己的声音回放给他们，而且只有他们自己能接收。根据《新科学家》的一份报告，这项技术是在2019年开发的，并获得了专利，但最近才被发现。这种武器的主要想法是使目标迷失方向，以至于他们无法与其他人有效沟通。这种武器被称为 acoustic hailing and disruption（AHAD），它能够记录语音，并在几毫秒内向目标即时广播。很像一个恼人的兄弟姐妹，这个动作会扰乱目标的注意力，理论上来说，会阻止他们继续说话。值得注意的是，该设备不太可能很快被用于战场，也就是说不会被用于针对敌人；但特别可能会被用作一种人群控制的形式也就是说，在镇压抗议活动和群体事件中使用。 AHAD是由海军水面作战部的工程师开发的，该部门是位于印第安纳州的海军研究和开发机构，为该部门开发手持式和船员服务式武器。至于该设备的技术细节，简单看一下其专利就非常有趣： “根据本公开的一个说明性实施方案，目标说的话会被引导回他们两次，一次是立即，一次是短暂延迟后。这种延迟产生了延迟听觉反馈（DAF），它改变了说话者对自己声音的正常感知。在正常的讲话中，讲话者听到自己的话语会有轻微的延迟，而且身体也习惯了这种反馈；通过引入另一个具有足够长延迟的音频反馈源，说话者的注意力就会被打乱，就很难继续说话”。如果你想看看这个东西的运行情况，该专利申请中还方便地包括了一种以类似方式工作的另一个设备的宣传视频： AHAD的工作原理是使用一系列定向麦克风和扬声器，可以瞄准说话者的声音。然后目标说的话被记录下来，并以相同的方向传送回目标人。有趣的是，广播的声音是在一个狭窄的波束上，只会被说话者听到。这不仅会迷惑目标人，而且，最终会阻止目标人集中精力，停止说话。目标人的行为将因这一行动而明显改变，很可能也会迷惑任何正在聆听目标人的其他人。换句话说，这样的武器会让你觉得你要疯了你周围的人也一样。当重复的讲话比目标说话人的实时讲话晚一两个音节时，这种技术可能会最有效。你可以想想，如果你曾经在电话中经历过自己声音的回声，这将是多么令人分心。同样重要的是要注意，像AHAD这样的设备也可以有其他应用。例如，它可以被用作船舶之间的一种电子呼唤装置。更耐人寻味的是，正如该专利所暗示的，“通过将AHAD系统对准墙壁或角落，该系统还可以将声音投射到目标物体表面，使音频看起来来自于目标物体。”AHAD现在加入了美国武装部队目前使用的其他 “非致命武器” 的行列，例如，非致命的长程声学装置。这种声波武器能够将高分贝的声波集中到目标身上，导致目标遭受偏头痛、耳鸣、或疼痛和不适。美国武装部队将如何部署和使用AHAD，还有待观察，但是，它保证肯定会惹恼敌方战斗人员，或国内反抗者。【注：您可以在查看带有超链接的版本】

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人