研究人员目前尝试推出一种新型智能听觉系统——只关注目标讲话者的声音，屏蔽所有其他干扰语音和噪音。

研究人员目前尝试推出一种新型智能听觉系统——只关注目标讲话者的声音，屏蔽所有其他干扰语音和噪音。该系统在各种未见过的室内外多路径环境中对静态和移动讲话者均能有效工作。在使用少于5秒的噪音注册音频时，实现了7.01dB的信号质量提升，并且可以在嵌入式CPU上6.24毫秒内处理8毫秒的音频块。关注频道@ZaiHuaPd频道投稿@ZaiHuabot

在Telegram中查看

相关推荐

来自麻省理工学院和微软的新型云游戏传输技术可保持视频和音频同步

来自麻省理工学院和微软的新型云游戏传输技术可保持视频和音频同步在典型的云游戏架构中，服务器接收来自控制器和耳机等游戏配件的游戏输入和音频聊天流。作为回应，服务器同时为玩家生成两个独立的媒体流。第一个是游戏屏幕流，包括游戏音频和视频，用于电视或平板电脑等屏幕设备。第二个是游戏附件流，用于控制器和游戏音频耳机，包括游戏音频、玩家聊天和触觉反馈（如控制器振动）。这两个流通常通过不同的网络传输，这可能导致两者之间缺乏同步，即流间延迟，从而造成视频延迟、触觉反应迟钝和糟糕的游戏体验。麻省理工学院的研究人员与微软研究院合作开发了Ekho系统，该系统采用独特的技术来解决流间延迟问题。他们将在9月10日至14日于纽约哥伦比亚大学举行的2023年ACM数据通信特别兴趣小组（SIGCOMM）会议上发表论文，介绍他们的系统。研究人员首先研究了流间延迟的核心问题：时钟同步。论文第一作者普亚-哈马达尼安（PouyaHamadanian）说："如果控制器和屏幕能同时看表，看到相同的东西，那么我们就能让一切与时钟同步。但大量关于时钟同步的理论研究表明，有些界限是永远无法逾越的。"解决时钟同步问题的一种常见方法是Ping消息传递，即设备向服务器发送一条Ping消息，服务器回应一条Ping消息；消息往返所需的时间被用来计算网络延迟。然而，这种方法可能并不可靠，因为信息到达服务器的时间可能比返回信息的时间更长。研究人员说，一旦流间延迟达到10毫秒，人类就能感知到。"因此，如果屏幕上发生了什么，我们希望控制器上也能在10毫秒内发生，"Hamadanian说。为了提高同步性，他们设计了Ekhho，以便在游戏音频流传到玩家屏幕之前添加"伪噪音"--人类听不到的低音量白噪音。Ekho-Estimator模块会在游戏音频中添加相同序列的伪噪声；然后，当它从控制器接收录制的游戏音频时，就会监听这些序列，并尝试将音频流排列起来。Ekho-Estimator模块会将这些信息发送给Ekhho-Compensator模块，后者会跳过几毫秒的声音，或者在服务器发送的游戏音频中加入几毫秒的静音，以实现音频流的同步。当研究人员在真实的云流媒体会话中测试Ekho系统时，他们发现该系统可以亚毫秒级的精度计算流间延迟。即使在麦克风质量较差或接收到背景噪声的情况下，Ekho也能在86.6%的时间内将流间延迟限制在10毫秒以内。该论文的共同作者之一克里希纳-钦塔拉普迪（KrishnaChintalapudi）说："传统的方法是通过底层网络来测量同步误差，而这种方法的误差要大得多。当我们开始这个项目时，我们还不确定是否能做到这一点。但我们通过Ekho可以达到亚毫秒级的精度，这是前所未闻的。"受到研究结果的鼓舞，研究人员计划看看Ekho如何将五个控制器同步到同一屏幕设备上。目前，由于Ekho是专为云游戏设计的，其使用范围有限。未来的工作可能是提高系统的续航能力，以便在更远的距离上使用。"这项研究的合著者穆罕默德-阿里扎德（MohammadAlizadeh）说："使用听不见的白噪声作为一种'计时器'是一个很好的例子，说明了发散性思维可以产生意想不到的结果。这项技术可以改善用户体验，不仅在云游戏中，在任何多设备流媒体场景中都有可能。"将在SIGCOMM2023会议上发表的论文可以在这里找到PDF格式：https://newatlas.com/www.microsoft.com/en-us/research/uploads/prod/2023/08/sigcomm23-final146.pdf...PC版：https://www.cnbeta.com.tw/articles/soft/1380953.htm手机版：https://m.cnbeta.com.tw/view/1380953.htm

基于人工智能的耳机原型能更细致、有选择性地过滤噪音

基于人工智能的耳机原型能更细致、有选择性地过滤噪音访问：NordVPN立减75%+外加3个月时长另有NordPass密码管理器大多数主动降噪耳机通过产生声波来抵消低频环境噪音，如发动机的轰鸣声。但它们最终会抵消这些频率的所有声音，可能会消除你想听到的音频。新的原型产品旨在为用户提供更细微的噪音控制。这款耳机内置麦克风，将音频输入经过训练的神经网络，该网络能识别不同类型的声音--狗叫声、电话铃声、鸟叫声等。使用配套的应用程序，您可以启用或禁用不同类别的声音，让耳机只过滤您想要的声音。最有趣的是，这款耳机还能在背景杂音中锁定特定的声音。只需点击一个按钮，耳机就会"注册"你面前的声音，将其作为唯一的声音进行放大，抑制其他所有噪音。希亚姆-戈拉科塔（ShyamGollakota）与一组研究人员共同开发了这项技术，他于5月16日在美国声学学会和加拿大声学协会举办的一次会议上介绍了这一想法。据《新科学家》报道，他在会上演示了一个工作原型。麦克风将音频传输到人工智能处理器，该处理器能实时解码和消除不需要的声音。研究人员说，这只需要8毫秒的延迟就足以避免奇怪的延迟问题。对于设备上的人工智能处理，目前的耳机设备使用的是通过USB连接的OrangePi板，而不是通过云服务器。当然，这个原型还不是你能买到的东西。要实现商业化，可能需要将一切都缩小到一个微小的芯片，以便集成到未来的无线耳机设计中。也就是说，人工智能已经通过算法驱动的麦克风降噪技术进入了主流音频设备。但这款耳机颠覆了这一概念，利用人工智能增强佩戴者的听力，而不仅仅是麦克风拾取的声音。从理论上讲，任何拥有像样的人工智能加速器和麦克风输入的设备都能提供这种选择性降噪功能。...PC版：https://www.cnbeta.com.tw/articles/soft/1431435.htm手机版：https://m.cnbeta.com.tw/view/1431435.htm

科学家设计出一种可在拥挤的空间中用眼神分离出特定声音的AI耳机

科学家设计出一种可在拥挤的空间中用眼神分离出特定声音的AI耳机华盛顿大学保罗-艾伦计算机科学与工程学院教授、本研究的资深作者希亚姆-戈拉科塔（ShyamGollakota）说："我们现在往往认为人工智能是基于网络的聊天机器人，可以回答问题。但在这个项目中，我们开发的人工智能可以根据佩戴耳机的人的喜好，改变他们的听觉感知。有了我们的设备，即使你身处嘈杂的环境中，有很多其他人在说话，你现在也能清楚地听到单个扬声器的声音。"这种耳机配有麦克风和一个按钮华盛顿大学研究人员开发的"目标语音听力"（THS）系统简单而有效。现成的耳机装有两个麦克风，每个耳罩上一个。佩戴者看着想要听到的人，按一次耳机侧面的按钮，持续三到五秒钟。说话者的声波会同时传到两个麦克风上（误差范围为16度），然后被发送到机载计算机上，由机器学习软件学习说话者的发声模式。然后，说话者的声音就会被分离出来，并通过耳机传送，即使他们走动时也是如此，无关的噪音也会被过滤掉。下面的视频展示了耳机的功效。它能快速过滤环境噪声，将注意力集中在扬声器上，消除附近（室内）有人讲电话和室外喷泉发出的嘈杂声。人工智能能以多快的速度处理说话者的声音并消除不想要的声音？研究人员在测试时发现，他们的系统的端到端延迟时间为18.24毫秒。相比之下，眼睛眨一下的时间在300到400毫秒之间。这就意味着，从看着你想听的人到耳机里只听到他的声音之间几乎没有延迟时间，一切都是实时发生的。他们让21名受试者体验了THS系统，受试者对耳机在真实的室内和室外环境中提供的噪音抑制效果进行了评分。平均而言，受试者对说话者声音清晰度的评分是未处理时的两倍。他们的THS系统建立在华盛顿大学研究人员之前开发的"语义听觉"技术基础之上。与THS一样，该技术使用的是智能手机上运行的人工智能算法，该算法与降噪耳机无线连接。语义听觉系统可以准确识别鸟鸣、警报和报警等噪音。目前，新系统一次只能过滤一个目标扬声器，而且只能在与扬声器同一方向没有其他大音量声音时过滤。但如果耳机佩戴者对音质不满意，他们可以对扬声器的声音重新采样，以提高清晰度。研究人员正在努力将他们的系统扩展到耳塞和助听器。他们还在GitHub上公开了THS代码，以便其他人在此基础上进行开发。该系统尚未投入商业使用。本月早些时候，研究人员在夏威夷檀香山举行的美国计算机协会（AssociationofComputingMachinery，ACM）计算机-人交互（Computer-HumanInteraction，CHI）会议上介绍了他们的研究成果，并获得了荣誉奖。未发表的研究论文可在此处查阅。...PC版：https://www.cnbeta.com.tw/articles/soft/1432195.htm手机版：https://m.cnbeta.com.tw/view/1432195.htm

ChatGPT-4o，OpenAI的一小步，人类“AI助理”的一大步

ChatGPT-4o，OpenAI的一小步，人类“AI助理”的一大步它长出了“眼睛”，可以通过摄像头看到你，比如它通过研究员上扬的嘴角判断他的心情、通过他周围的环境背景判断了他正在做什么、甚至给出了造型建议；它能“看到”你的电脑桌面，直接帮你查看写的代码有什么问题。它有了更灵敏的“耳朵”，能听懂的不只是语言，还能听懂研究员过于急促的呼吸声，并引导他慢慢平稳呼吸、放松下来。OpenAICTOMuraMurati宣布推出ChatGPT-4o图片来源：OpenAI它有了更灵活的“嘴巴”，对话不再有延时，你能随时打断它、它能随时接住你的话。它的声音能带入感情，比如更冷静一点、更激昂一点、甚至讽刺一点。它还能唱歌。它也有了更聪明的“大脑”。它能帮研究员一步步解不等式，还可以做同声翻译、你可以通过它跟不同语种的人们交流。这些强大的能力背后，源自OpenAI推出的新模型GPT-4o。与现有模型相比，GPT-4o的最大进步在于，它可以实时对音频、视觉和文本进行推理——换句话说，它让ChatGPT实现了真正意义上的多模态交互。这不仅仅是技术进步的追求，更是应用普及的追求。OpenAI的使命之一是让AI普惠每个人，让用户能顺滑地用上AI是至关重要的。在“模型即应用”的时代，这种交互体验最终还是靠模型能力的提升。OpenAI称，GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步。发布会上，MiraMurati宣布ChatGPT-4o将免费向所有用户开放，而付费和企业用户，可以抢先获得体验。电影《Her》上映于2013年，它讲述了一位人类爱上一位人工智能语音助理的故事。从今天ChatGPT呈现的能力来看，这样的想象正在加速成为现实。ChatGPT的惊人进步：变身人类“超级助理”，甚至不需要人类参与在OpenAI的官网上，呈现了ChatGPT作为个人语音“超级助理”的更多惊人应用场景。首先是面向单个用户，和人一样，它提供的主要是“情绪价值”与“认知价值”。比如它能讲笑话、唱生日快乐歌、玩游戏、逗小狗、给人催眠、让人放松等等；它能充当面试官，给人提供面试建议；它还能给一位盲人提供环境观察，给他讲述看到的景色、提醒他过马路的路况。盲人用户使用ChatGPT-4o“观察”整个世界图片来源：OpenAI接着是面向多个用户，它提供的更多是一种“协同价值”。比如给两个语言不通的人充当翻译，让他们能无障碍沟通；给两个人做“剪刀石头布”的游戏裁判，先喊口令让游戏开始、之后还能准确判断是哪个人赢了；充当一名“家教”，帮一位父亲辅导他的孩子做作业；甚至作为一名“会议第三方”，主持和记录多人会议。最有意思的还是，不同ChatGPT之间的对话。这种无需人类参与的沟通，不仅充满了科幻感，更让人开始想象无需人类协作、而让机器代替人类协作的未来。在一段演示中，一位用户要求一部手机的ChatGPT代表自己，向另一部手机的ChatGPT申请售后，结果这两个ChatGPT毫无阻碍地聊了两分钟，顺利帮这位用户“换了货”。而OpenAI总裁GregBrockman则做了一个调皮的演示，他让两个ChatGPT互动并唱了歌。OpenAI总裁GregBrockman演示两个GPT的互动图片来源：OpenAI一位曾在10年前就开始做“AI语音助理”的前大厂高管对极客公园表示，他当时就设想过AI助理的终极形态应该是“多模态、无所不能”，但彼时技术并不支持，他认为ChatGPT会加速这种设想实现的可能——只是他没想到，这个过程会来得这么快。他认为，实现AGI的一个关键标志是，机器是否能具备了自主学习、自主迭代、自主解决问题等能力。这个突破看起来很遥远，但当两个ChatGPT开始互相聊天的时候，这个鸿沟看起来似乎浅了一点点。GPT-4o多模态大模型的技术进步、以及安全性这些惊艳的产品表现，根本上源自于GPT-4o多模态大模型的技术进步。后者分为文本、语音、图像三部分，GPT-4o在这三块都有提升，尤其是后两者。在文本方面，据OpenAI的技术报告，GPT-4o在MMLU（语言）、GPQA（知识）、MATH（数学）、HumanEval（编程）的评测指标上，都超出了GPT-4T、GPT-4(23年3月最初发布版本)，以及竞品Claude3Opus、GeminiPro1.5、Llama3400b、GeminiUltra1.0。比如在0-shotCOTMMLU上，GPT-4o创下了88.7%的新高分。GPT-4o在文本上的成绩相当优异图片来源：OpenAI最关键的，是音频、多语言和视觉上的进步。在音频方面，过去ChatGPT的音频缺陷是需要经过三个独立的模型，从而存在延迟、且无法承载丰富信息。它先由第一个模型将音频转录为文本，再由GPT-3.5或GPT-4接收文本并输出文本，最后由第三个模型将该文本转换回音频——一方面，它使得音频的传输存在延迟，GPT-3.5的平均延迟为2.8秒，GPT-4的平均延迟为5.4秒。另一方面，模型会丢失大量信息，从而无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。而GPT-4o的解决办法是，跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。OpenAI称这是其突破深度学习界限的最新举措。目前，GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类的响应时间相似。同时在音频ASR性能和翻译性能上，GPT-4o都比Whisper-v3（OpenAI的语音识别模型）的性能更优。M3Exam基准测试既能用于多语言评估，也可以用于视觉评估。它由多项选择题组成，包括图形和图表。在所有语言的基准测试中，GPT-4o都比GPT-4更强。另外在视觉理解评估上，GPT-4o在视觉感知基准上都实现了最先进的性能。GPT-4o在视觉理解上同样能力不错图片来源：OpenAI一位大模型训练者曾对极客公园表示，模型的技术领先性从来不是靠打榜评分，而是靠用户最真实的感受和体验。从这个角度来说，GPT-4o的技术领先性将很容易见分晓。OpenAI表示，GPT-4o的文本和图像功能将于发布会当天在ChatGPT中推出。免费用户就可以使用，不过Plus付费用户能享受高达5倍的消息容量。在未来几周内，OpenAI会在ChatGPTPlus中推出新版本的语音模式GPT-4oalpha。而开发人员现在就可以在API中访问GPT-4o的文本和视觉模型。与GPT-4Turbo相比，GPT-4o速度提高了2倍、价格降低了一半、速率限制提高了5倍。在未来几周内，OpenAI计划向一小部分值得信赖的合作伙伴推出GPT-4o的新音频和视频功能。一项强大的技术最令外界担忧的，就是它的安全可控性。这也是OpenAI最核心的考虑之一。OpenAI表示，GPT-4o通过过滤训练数据和通过训练后细化模型行为等技术，在跨模式设计中内置了安全性。其还创建了新的安全系统，为语音输出提供防护。为了保证更好的安全性，OpenAI表示在接下来的几周和几个月里，将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。OpenAI从没让外界失望，再次引领科技圈的未来作为这波AI浪潮的开启者、引领者，OpenAI的每一次发布和更新，都关系着其庞大用户量的涨跌、公司竞争的进退、以及整个行业的关注和走向。在这次发布会之前，外界对OpenAI颇多谣传、也包括质疑。一周前，外媒报道此次OpenAI要发布的是一款搜索引擎——在一年最重要的新闻发布时刻，这家公司没有推出GPT-5，这引来外界对其创新力的颇多怀疑。而如果无法拿出足够创新力的技术和产品，这家公司将难以重振用户的增长、满足整个市场对它的期待。自2022年底推出ChatGPT后，这家公司的用户量经历了大起大落。据Similarweb估计，其全球访问量在2023年5月达到...PC版：https://www.cnbeta.com.tw/articles/soft/1430819.htm手机版：https://m.cnbeta.com.tw/view/1430819.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人