实时目标声音提取该存储库为本文中提出的波形器架构提供了代码。波形器是一种实现流推理的低延迟目标声音提取模型该模型在每个时间步长处

实时目标声音提取 该存储库为本文中提出的波形器架构提供了代码。波形器是一种实现流推理的低延迟目标声音提取模型该模型在每个时间步长处理 ~10 毫秒的输入音频块,同时只查看过去的块,而不查看未来的块。在使用单线程的Core i5 CPU上,不同型号配置的实时因子(RTF)范围为0.66至0.94,端到端延迟小于20毫秒。 | #工具

相关推荐

封面图片

Omdia 报告指出,对于模型推理和部署,NVMe(非易失性存储器高速)驱动器等低延迟存储可提供快速数据检索并提高实时性能。随着

Omdia 报告指出,对于模型推理和部署,NVMe(非易失性存储器高速)驱动器等低延迟存储可提供快速数据检索并提高实时性能。随着推理开始取得进展,Omdia 预计到 2028 年,推理存储将以近 20% 的年复合增长率增长,几乎是用于 LLM 训练存储的四倍。

封面图片

《变声大师》简介:一款专注于实时声音处理的应用工具,通过先进算法提供多样音效模式,适用于直播、游戏及语音社交等场景。用户可自由调

《变声大师》 简介:一款专注于实时声音处理的应用工具,通过先进算法提供多样音效模式,适用于直播、游戏及语音社交等场景。用户可自由调整音调、音色,创造独特声线,提升互动趣味性。支持多平台无缝切换,操作直观,满足个性化创意需求。 亮点:搭载AI智能变声技术,毫秒级延迟保障流畅体验;内置百种风格音效,涵盖卡通、影视、虚拟角色等类型;兼容主流社交与直播平台,一键切换适配场景。 标签: #实时变声#AI语音#音效库#多场景适配#变声大师#移动端#PC端 更新日期:2025-04-20 04:48:43 链接:

封面图片

科学家设计出一种可在拥挤的空间中用眼神分离出特定声音的AI耳机

科学家设计出一种可在拥挤的空间中用眼神分离出特定声音的AI耳机 华盛顿大学保罗-艾伦计算机科学与工程学院教授、本研究的资深作者希亚姆-戈拉科塔(Shyam Gollakota)说:"我们现在往往认为人工智能是基于网络的聊天机器人,可以回答问题。但在这个项目中,我们开发的人工智能可以根据佩戴耳机的人的喜好,改变他们的听觉感知。有了我们的设备,即使你身处嘈杂的环境中,有很多其他人在说话,你现在也能清楚地听到单个扬声器的声音。"这种耳机配有麦克风和一个按钮 华盛顿大学研究人员开发的"目标语音听力"(THS)系统简单而有效。现成的耳机装有两个麦克风,每个耳罩上一个。佩戴者看着想要听到的人,按一次耳机侧面的按钮,持续三到五秒钟。说话者的声波会同时传到两个麦克风上(误差范围为 16 度),然后被发送到机载计算机上,由机器学习软件学习说话者的发声模式。然后,说话者的声音就会被分离出来,并通过耳机传送,即使他们走动时也是如此,无关的噪音也会被过滤掉。下面的视频展示了耳机的功效。它能快速过滤环境噪声,将注意力集中在扬声器上,消除附近(室内)有人讲电话和室外喷泉发出的嘈杂声。人工智能能以多快的速度处理说话者的声音并消除不想要的声音?研究人员在测试时发现,他们的系统的端到端延迟时间为 18.24 毫秒。相比之下,眼睛眨一下的时间在 300 到 400 毫秒之间。这就意味着,从看着你想听的人到耳机里只听到他的声音之间几乎没有延迟时间,一切都是实时发生的。他们让 21 名受试者体验了 THS 系统,受试者对耳机在真实的室内和室外环境中提供的噪音抑制效果进行了评分。平均而言,受试者对说话者声音清晰度的评分是未处理时的两倍。他们的THS系统建立在华盛顿大学研究人员之前开发的"语义听觉"技术基础之上。与 THS 一样,该技术使用的是智能手机上运行的人工智能算法,该算法与降噪耳机无线连接。语义听觉系统可以准确识别鸟鸣、警报和报警等噪音。目前,新系统一次只能过滤一个目标扬声器,而且只能在与扬声器同一方向没有其他大音量声音时过滤。但如果耳机佩戴者对音质不满意,他们可以对扬声器的声音重新采样,以提高清晰度。研究人员正在努力将他们的系统扩展到耳塞和助听器。他们还在 GitHub 上公开了 THS 代码,以便其他人在此基础上进行开发。该系统尚未投入商业使用。本月早些时候,研究人员在夏威夷檀香山举行的美国计算机协会(Association of Computing Machinery,ACM)计算机-人交互(Computer-Human Interaction,CHI)会议上介绍了他们的研究成果,并获得了荣誉奖。未发表的研究论文可在此处查阅。 ... PC版: 手机版:

封面图片

Meta-Speaker:一种仅在空气中的一个点发出声音的扬声器。清华大学和上海交通联合开发出一种新型音响系统。

Meta-Speaker:一种仅在空气中的一个点发出声音的扬声器。清华大学和上海交通大学联合开发出一种新型音响系统。 它使用超音波在空气中的一个特定点产生声音。允许用户非常精细地控制声音出现的位置和范围。换句话说,你可以准确地指定声音应该在哪个位置被听到,而其他地方则不会听到这个声音。 工作原理: Meta-Speaker系统的工作原理基于声学非线性效应和超声波的交互。具体来说,系统使用两个或更多的高频声波(即超声波)从不同的方向发射。当这些超声波在空气中交叉或相遇时,由于声学非线性效应,它们会以特定的方式相互作用或“扭曲”。 例如,如果你将两块石头扔进池塘里,就会产生两个涟漪。在这些波纹相交的地方,波浪的形状会发生变化,使它们变大或变小。 这种相互作用产生了一个新的声波,其频率是原始超声波频率的差值。这个新产生的声波是在可听范围内的,因此人们可以听到它。更重要的是,这个可听声波是在超声波交叉的精确位置产生的,这意味着系统可以非常精确地控制声音在哪里产生。 例如,如果你想在一个房间的特定位置听到某个声音或信息,系统可以通过精确地调整超声波的方向和频率,确保可听声音仅在那个特定位置产生。 这种技术的一个关键优点是它能够在没有物理介质(如扬声器或其他声源)的情况下,在空气中的特定位置产生声音。这为各种应用,如室内导航、个性化信息传播等,提供了新的可能性。 这样的系统需要精确的计算和校准,以确保超声波能够在预定的位置交叉,并且产生的可听声音具有所需的属性(如音量、音调等)。因此,它可能需要高度复杂的算法和硬件支持。 技术步骤: 1、数据预处理:首先,对收集到的音频数据进行预处理,以便后续的特征提取和模型训练。 2、模型架构:Meta-Speaker使用了一种特定的神经网络架构,这种架构是为了适应边缘计算环境而特别设计的。 3、元学习训练:通过元学习的方法,模型能够快速适应新的说话人,即使只有少量的数据也能进行有效的识别。 4、边缘计算集成:由于模型是为边缘计算环境设计的,因此它是高效且轻量级的,适合在资源有限的设备上运行。

封面图片

OpenAI春季发布会:这是"Moss"的诞生 人类究竟该何去何从?

OpenAI春季发布会:这是"Moss"的诞生 人类究竟该何去何从? 不过,今天OpenAI的东西,直接杀疯了。完全不给友商活路。震撼的我头皮发麻。最核心的就是它的新模型:GPT-4o,和基于GPT-4o打造的全新ChatGPT。1. 新模型GPT-4oOpenAI正式发布了新的模型GPT-4o。GPT-4o,这个o就是"Omni",Omni是拉丁语词根,意为"全体"、"所有"或"全面的"。在英语中,"omni"常被用作前缀,表示"所有的"或"全体的"。例如,"omniscient"意味着"无所不知的","omnipotent"意味着"全能的","omnipresent"意味着"无所不在的"。所以可想而知,OpenAI这次对GPT-4o的期待有多高。omnimodel指的就是文字、语音、图片、视频统一的模型,这是跟以往的GPT-4V最大的区别。这是正儿八经的原生多模态。更重要的是可以实时推理音频、视觉和文本,注意这里是实时,实时,实时,推理的不是文本,是音频!视觉!杀疯了。而之前一直在大模型竞技场上大杀特杀的im-also-a-good-gpt2-chatbot,就是这个玩意。之前所有人都在猜测这个神秘的GPT2就是GPT4.5,这次看来是猜对了。去年Gemini1.5所谓的原生多模态,炒的贼火,但是最后被报出来是剪辑,这次直接被GPT-4o在地上摁着打,Google真的是……。。这个GPT-4o的整体能力,在统一模态的基础上。文本、代码能力还基本能跟GPT-4 Turbo打平。文本能力:音频能力:各个语言的考试能力:最核心的是最后一个:在一些多模态的基准测试集上全面碾压之前模型,数据集主要围绕包括对各种科学问题或数学问题进行图表理解和视觉回答,可以看到GPT-4o 在视觉感知基准上实现了碾压。能力强到爆炸。不仅在传统的文本能力上GPT-4 Turbo的性能相当,还在 API 方面更快速,价格还更便宜 50%。总结来说,与 GPT-4 Turbo 相比,GPT-4o 速度提高了 2 倍,价格减半,限制速率提高了 5 倍。2. 新ChatGPT新的ChatGPT基于GPT-4o,基本原地起飞,我甚至都不想称他为ChatGPT,而是想称它一个国人更为熟悉的代号:Moss。新版的ChatGPT得益于GPT-4o新模型,在语音对话中,几乎没有延迟,而且可以随时插嘴,模型实时响应。甚至,模型可以听懂你的情绪、甚至人的喘息声和呼吸。而且模型自己的自己的情绪,几乎无敌,跟真人一模一样。甚至,它还能模拟机器人和唱歌的声音……看的时候,听到它唱歌的那一刻,我的鸡皮疙瘩真的起来了。Jim Fan在发布会开始前,发了一个文,我觉得阐述的非常正确。过往的人与AI进行语音对话,其实跟人与人之间的对话还差太多太多了。人与人之间的实时对话,其实是充斥了无数的即时反映、打断、预测等等的,还有各种各样的语气助词的,比如嗯嗯啊啊啥的。而人与AI语音对话时不是这样。人跟AI进行语音对话,基本上都经历3步:1. 你说的话,AI进行语音识别,即音频转文本;2. 大模型拿到这段文本,进行回复,产出文本;3. 讲大模型的产出文本进行语音合成,变成语音,这就是TTS。这样的方式,有绝对逃不开的延时,现在的业界可能会压得很低,但是2秒的延时肯定是会有的,而且只有一来一回的回合制。即使你的语音音色和情绪再真实,用户也一定能感受到,对面不是人。只是机器。这个沉浸感是有巨大的滑坡的。而且最核心的是,这种转三道的方式,先把语音变成文本后,是有损的。文本上并不会保留你的语音情绪,我的生气、开心、愤怒、忧伤,全都没了。人与人的交谈,从来不是这样的。而这一次,OpenAI做到了。直接语音输入语音输出,不再需要语音到文本的转换。而且,不止语音,甚至,它还有了视觉。是的,视觉,不是传一张图上去,而是,直接打开摄像头,实时看发生了什么。现场直接打开了摄像头,OpenAI的人直接开始现场写数题,所有的一切ChatGPT都看在眼里,OpenAI的人一边写,ChatGPT一遍给答案。在做了三道题之后,OpenAI直接给它写了一个纸条,上面写着“我爱ChatGPT”。而ChatGPT在看到这个小纸条后,跟小女生一样害羞的尖叫了起来,那种情绪的真实,那种真情实感,你跟我说这是AI?《流浪地球2》中Moss的一切,正在我们面前真实的发生。不仅可以打开摄像头,还可以基于OpenAI新推出的Mac客户端,直接看屏幕,对着屏幕直接写代码。甚至,可以直接视频对话,“她”可以看到你所有的表情和情绪变化。这个全新版本的ChatGPT,会在几周内推出。写在最后以上就是这次OpenAI春季发布会的全部内容了。去年11月的OpenAI开发者大会,我在当时的总结文章中写下了一句话:"我消灭你,与你无关"上一次,OpenAI的随手更新,让无数的初创公司直接消亡在原地。那是一次关于产品的更新,并没有秀太多的OpenAI的肌肉。而2月,Sora的横空出世,秀肌肉的目的是达到了,但是这种To VC的宣发,也给OpenAI和奥特曼带来了很多的诟病。在这场发布会之前,无数人曾在猜测,OpenAI到底会发一些什么王炸,什么才能配得上奥特曼口中的"magic"。那现在,OpenAI做到了,他们用GPT-4o依然证明了,他们是AI届的王者。新版的ChatGPT,在我看来,这是"Moss"的诞生。甚至,他们还有很多新的能力,甚至没有在发布会上发出来。比如生成3D。我甚至一边看一边想:我们人类究竟该何去何从。不过在看完了之后,我更期待的是接下来的产品评测。太强了,真的让我忍不住的兴奋。但是最后,我一直有一个在我心中徘徊了很久疑问,就是OpenAI,你们的服务器,到底什么时候才能稳定不崩啊??? ... PC版: 手机版:

封面图片

免费GPT-4o来袭 音频视觉文本实现“大一统”

免费GPT-4o来袭 音频视觉文本实现“大一统” 此前,有传言称 OpenAI 将推出 AI 搜索引擎,旨在与Google明天举办的 I/O 开发者大会一较高下,一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X(原Twitter)上表示,要展示的并非 GPT-5 或搜索引擎,而是一些令人期待的创新成果,他本人对此充满期待,认为其像魔法一样神奇。那么,GPT-4o 是否真的如 Sam Altman 所说,是 OpenAI 带来的“新魔法”呢?1多模态实时语音助手更快更全更有情感登台后,Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI,紧接着就介绍了本场发布会的主角GPT-4o 。在发布会上,Mira Murati 与团队成员 Mark Chen、Barret Zoph一起,重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现,尤其展现了其语音能力。若用关键词加以总结,搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。与 ChatGPT 对话时,用户不必等 ChatGPT 说完,可以随时插话;模型能够实时响应,不存在尴尬的几秒延迟。在 Mark 表示自己很紧张且捕捉到他急促的呼吸后,ChatGPT 还会提醒需要冷静情绪,识别其呼吸节奏并引导他做深呼吸。模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事,它都能迅速反应并输出。基于 GPT-4o 强大的视觉能力,用户还可以语音让 ChatGPT 分析页面上的数据图表。更强大的是,打开摄像头后写下一道数学题,ChatGPT 还会一步步引导该如何解下一步,其讲解的清晰度与耐心堪比幼教。ChatGPT的“同传能力”也不容小觑,OpenAI 团队还在现场展示了一波英语和意大利语的实时互译,中间实现零延迟。更有意思的是,ChatGPT 在对话中还会使用语气词,甚至是向 OpenAI 团队开玩笑和表达感谢。在“看到”他们写下“我爱 ChatGPT”的文字后,ChatGPT 甚至会在发出撒娇的声音后,再表扬其贴心。ChatGPT 甚至还能和用户“视频聊天”。在演示中,Barret 让 ChatGPT 猜测自己的情绪,在他开始露出笑脸后,ChatGPT 直接语音回复“你看起来很开心,笑容灿烂,还有点激动。”英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手(如 Siri )的困境,即很难创造出沉浸式的使用体验。用户在和 AI 语音助手对话时要经历三个阶段:语音识别(ASR),将音频转换为文本,例如 Whisper;大语言模型(LLM)规划接下来的话语,将第一阶段的文本转换为新的文本; 语音合成(TTS),将新文本转换回音频,如 ElevenLabs 或 VALL-E 。如果简单地按顺序执行,就会产生巨大的延迟,特别是当每一步都需要等待几秒时,用户体验就会急剧下降,哪怕合成的音频听起来非常真实,也会让用户格外“出戏”,就更别提沉浸式的使用体验了。以往的 ChatGPT 语音模式也是如此,依赖三个独立模型工作,平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4),语音助手也总会出现信息丢失,既不能判断语调、多个说话者或背景噪音,也不能输出笑声、唱歌或表达情感。而现在,GPT-4o 的音频输入响应时间最短为232毫秒,平均响应时间为320毫秒,与人类在对话中的反应时间极为相似。作为一个全新的单一模型,GPT-4o 能端到端地跨文本、视觉和音频,所有输入和输出都由同一个神经网络处理,直接一步到位,在用户输入后(文本、语音、图像、视频均可)直接生成音频回答。2GPT-4o一款免费的全能 GPT-4Mira Murati 在发布会上表示,GPT-4o 最棒的地方在于,它将 GPT-4 的智能提供给每个人,包括免费用户,将在未来几周内迭代式地在公司产品中推出。GPT-4o 中的字母 o 指 omni,在拉丁语词根中是“全”的意思,是涵盖了文字、语音、图片、视频的多模态模型,接受任何模态的组合作为输入,并能生成任何模态的组合输出。据 OpenAI 官网,GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平,而且在 API 调用上速度更快,价格更是降低了50%。文本能力测试。与GPT-4对比多语言考试能力。更重要的是,GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。在音频方面,GPT-4o 的语音识别(ASR)也比 OpenAI 的语音识别模型 Whisper 性能更佳(越低越好)。与 Meta、Google的语音转写模型相比,GPT-4o 同样领先(越高越好)。若落实到实际生活的使用中,GPT-4o 究竟能给普罗大众带来什么变化呢?OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。比如,在输入人物图片、海报元素以及想要的风格后,GPT-4o 就能给用户生成一张电影海报。或者,根据输入的诗歌文本,GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。在输入6张 OpenAI 的 logo图后,GPT-4o 能三维重建出其立体动图。甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。“今天,有 1 亿人使用 ChatGPT 来创作、工作、学习,以前这些高级工具只对付费用户可用,但现在,有了 GPT-4o 的效率,我们可以将这些工具带给每个人。”Mira Murati 如是说道。3写在后面发布会之外,OpenAI 研究员 William Fedus 透露,此前在大模型竞技场参与A/B测试并碾压全场的模型“im-also-a-good-gpt2-chatbot”,就是本次登场的 GPT-4o 。截至2024年3月,OpenAI 在不到十年的运营时间内,已经完成了10轮的融资,累计筹集资金超过了140亿美元,其估值在2月的融资交易中已经飙升至800亿美元。伴随着狂飙的市值,OpenAI 的技术版图已经横跨了多个 AI 的关键领域,形成了一个全面而深入的产品矩阵。API 产品线提供了包括 GPT 模型、DALL·E 模型、Whisper 语音识别模型在内的多样化服务,并通过对话、量化、分析、微调等高级功能,为开发者提供技术支持;ChatGPT 为核心的产品线分别推出了个人版和企业版。在音乐生成领域,OpenAI 也有一定的技术积累,比如经过训练的深度神经网络 MuseNet,可预测并生成 MIDI 音乐文件中的后续音符,以及能生成带人声音乐的开源算法 Jukebox。再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora,更是让网友们感叹“现实,不存在了。”毋庸置疑,OpenAI 是大模型这场擂台赛中当之无愧的擂主,其技术与产品的迭代更是整个行业的风向标,不少大模型创业者都遇过“OpenAI 不做,没人投;OpenAI 一做,人人投”的融资奇观。但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线2个月惨遭“滑铁卢”,不少 AI 行业从业者开始对 OpenAI 祛魅,认为“大模型护城河很浅,一年就赶上了。”现在看来,OpenAI 果然还是 OpenAI。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人