BrainMagick:通过分析脑电活动来推断一个人正在听什么,并将其转化为语音。

BrainMagick:通过分析脑电活动来推断一个人正在听什么,并将其转化为语音。 由Facebook Research 研究的项目,该研究使用非侵入性的电子脑图(EEG)和磁脑图(MEG)技术来解码大脑波并将其转化为语音。这一研究成果已经发表在2023年的 Nature 上,而且项目是开源的。 该模型通过预测与相应大脑活动模式匹配的语音音频的表示来解码语音。该研究在准确性方面取得了显著的改进,特别是在使用MEG记录时,准确性高达73%。 这一成果对于那些因神经系统疾病而失去说话能力的人来说是一个巨大的希望,因为它为恢复他们的沟通能力提供了一条新途径。 工作原理: 1、数据输入与表示: BrainMagick 使用两种类型的数据输入:一是脑电活动数据(EEG或MEG),二是与之相关的音频数据。这些音频数据通过Wav2Vec 2.0模型转换成特定的表示形式。 2、对比损失: 项目使用对比损失(Contrastive Loss)作为训练的目标函数。简单来说,对比损失试图最小化正样本(即与当前脑电活动匹配的音频)与脑电活动表示之间的距离,同时最大化负样本(即与当前脑电活动不匹配的音频)与脑电活动表示之间的距离。 3、多数据集验证: 该方法在4个不同的数据集上进行了验证,包括2个MEG数据集和2个EEG数据集。这些数据集涵盖了175名志愿者和超过160小时的脑电活动记录。 4、性能评估: 在Gwilliams数据集上,该方法达到了41%的top-1准确率。这意味着该模型能够在超过1300个未见过的候选句子中,准确地识别出受试者当前正在听哪个句子,以及该句子中的哪个单词。 在MEG记录的3秒语音片段中,模型能够从超过1500个可能的片段中识别出匹配的片段,准确率高达73%。 技术细节与实现: 依赖与环境: 项目推荐使用NVIDIA GPU进行训练,并且具体列出了所需的软件包和环境设置步骤。 数据预处理与缓存: 项目代码中包含了数据预处理的步骤,包括潜在的下采样和低/高通滤波等。为了提高效率,最耗时的计算被缓存起来。 配置与实验管理: 项目使用Hydra进行配置管理,并使用Dora进行实验的启动和管理。 ||

相关推荐

封面图片

Poseidona正在清除海洋中的入侵藻类 并将其转化为食物

Poseidona正在清除海洋中的入侵藻类 并将其转化为食物 在结识了从循环食品材料中提取蛋白质的专家玛丽亚-瑟梅诺(María Cermeño)后,两人决定清除海洋中的这种害虫,并将其转化为食品蛋白质原料。他们成立了 Poseidona 公司,这是一家位于巴塞罗那的可持续食品技术开发商,利用入侵海藻和藻类副流(农业生产者产生的废物)制造蛋白质。在这种情况下,它是一种大豆蛋白替代品。该公司利用酶水解技术(通常用于回收塑料和生产乙醇的分子分离工艺),并将其与其他技术相结合。其秘诀在于水解的方式和酶的组合,以确保最终产品的蛋白质质量。乌尔塔多说,他们正在寻找蛋白质的营养因素和整体功能性。瑟梅诺和 Hurtado 对这一领域都不陌生: 瑟梅诺拥有食品生物化学博士学位,乌尔塔多曾是Current Foods公司的联合创始人兼首席科学官,该公司的前身是Kuleana。该公司生产植物海鲜,于 2023 年被 Wicked Kitchen 收购。Poseidona 创始人 Sònia Hurtado(左)和 Maria Cermeño。图片来源:Poseidona Poseidona乌尔塔多说,将侧流食品推向公众视野的原因是,食品科学家们认识到需要寻找新的蛋白质来源。与此同时,那些关注食品制造对环境影响的人也看到了大量废弃物和副产品的产生。"例如,在腐烂番茄的表皮中,有很多好的颜色和分子可供我们使用。我们正在成为一个人口过剩的世界,在某个时候,我们需要充分利用我们拥有的所有资源,因为我们将达到一个不再有任何资源的地步。"Poseidona 公司的首款产品是大豆替代浓缩蛋白。公司通常需要对配料的颜色和口味进行试验。不过,在最初的原型中,他们发现这种浓缩物有一种类似蘑菇的味道,而且颜色有点偏红。乌尔塔多说,他们想让颜色更接近大豆,但目前他们还是选择了自然色。如果一切顺利,乌尔塔多预计将于 2024 年底推出这种浓缩物。本轮种子期融资总额为 110 万欧元(119 万美元),由欧洲领先的气候技术和蓝色经济风险投资基金 Faber 领投。参与本轮融资的还有 Dozen Investments、Sprout & About、ProVeg International 和 WA4STEAM(Women for STEAM)。与此同时,政府对如何操作和收集 Poseidona 用于生产产品的藻类也有具体规定。鱼类数量的减少导致渔民的工作减少,乌尔塔多女儿的一个想法启发了乌尔塔多和瑟梅诺制定一项计划,让渔民收集海藻作为另一种收入来源。他们计划在未来几年开展这项工作。Poseidona 还计划利用其他种类的入侵海藻例如马尾藻乌尔塔多说,马尾藻正在影响太平洋。"我们的目标是利用各种大型藻类,采用我们专有的方法,开发出成本低廉的优质蛋白质,能够与大豆蛋白和豌豆蛋白等主流植物性蛋白质竞争,因为它们目前根本没有竞争优势,"赫尔塔多说。"我们最终将能在成本上与大豆蛋白持平。" ... PC版: 手机版:

封面图片

:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录

:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录 VoiceStreamAI 是一种基于 Python 3 的服务器和 JavaScript 客户端解决方案,可使用 WebSocket 实现近实时音频流和转录。该系统采用 Huggingface 的语音活动检测 (VAD) 和 OpenAI 的 Whisper 模型来实现准确的语音识别和处理。 特征 通过 WebSocket 进行实时音频流。 使用 Huggingface 的 VAD 进行语音活动检测。 使用 OpenAI 的 Whisper 模型进行语音转录。 可定制的音频块处理。 支持多语言转录。

封面图片

工信部宣布将制定脑机接口标准,正在筹建脑机接口标准化技术委员会,成立之后该委员会将围绕脑电采集、信号获取及处理、信号输出/执行、

工信部宣布将制定脑机接口标准,正在筹建脑机接口标准化技术委员会,成立之后该委员会将围绕脑电采集、信号获取及处理、信号输出/执行、反馈等环节开展脑信息读取与写入等输入输出接口标准,数据格式、传输、存储、表示和预处理标准,脑信息编解码算法标准研究。工信部此举表明在脑机接口领域中国将从以学术研究为主转向更具有针对性的研发。 via Solidot

封面图片

强制时间对齐的时间戳精确版Whisper语音识别 | 该存储库通过强制使用基于音素的ASR模型(例如wav2vec2.0)来优化

强制时间对齐的时间戳精确版Whisper语音识别 | 该存储库通过强制使用基于音素的ASR模型(例如wav2vec2.0)来优化openAI的Whisper模型的时间戳,多语言用例。 Whisper是由OpenAI开发的ASR模型,在大型的各种音频数据集上进行训练。虽然它确实会生成高度准确的听录,但相应的时间戳位于话语级别,而不是每个单词,并且可能不准确几秒钟。 基于音素的 ASR一套经过微调的模型,用于识别区分一个单词和另一个单词的最小语音单元,例如“tap”中的元素p。一个流行的示例模型是wav2vec2.0。 强制对齐是指将正字转录与录音对齐以自动生成电话级分段的过程。

封面图片

OpenAI展示语音克隆人工智能模型 只需15秒样本即可工作

OpenAI展示语音克隆人工智能模型 只需15秒样本即可工作 可以访问的公司包括教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespan。在 OpenAI 发布的这些样本中,你可以听到Age of Learning利用该技术生成预制画外音内容,以及向学生朗读由 GPT-4 撰写的 "实时、个性化回复"。首先是英文参考音频:下面是人工智能根据该样本生成的三个音频片段:OpenAI 表示,它于 2022 年底开始开发语音引擎,该技术已经为文本到语音 API 和ChatGPT 的朗读功能提供了预设语音。OpenAI 语音引擎产品团队成员杰夫-哈里斯(Jeff Harris)在接受TechCrunch 采访时表示,该模型是在 "授权数据和公开数据的混合 "基础上训练出来的。OpenAI 告诉该刊物,该模型将只向大约 10 名开发者开放。人工智能文本到音频生成是生成式人工智能的一个不断发展的领域。虽然大多数人都专注于乐器或自然声音,但专注于语音生成的人较少,部分原因是 OpenAI 提出的问题。该领域的一些知名公司包括 Podcastle 和 ElevenLabs,它们提供人工智能语音克隆技术和工具。与此同时,美国政府也在努力遏制不道德地使用人工智能语音技术。上个月,美国联邦通信委员会禁止了使用人工智能语音的自动拨叫电话,因为人们收到了由人工智能克隆的乔-拜登总统的声音打来的垃圾电话。据 OpenAI 称,其合作伙伴同意遵守其使用政策,即未经同意不得使用语音生成技术冒充他人或组织。该政策还要求合作伙伴获得原始发言人的 "明确和知情同意",不建立个人用户创建自己声音的方法,并向听众披露声音是人工智能生成的。OpenAI 还为音频片段添加了水印,以追踪其来源,并积极监控音频的使用情况。OpenAI 提出了几项措施,认为这些措施可以限制类似工具的风险,包括逐步淘汰访问银行账户的语音认证,制定政策保护人工智能中对人声的使用,加强人工智能深度伪造方面的教育,以及开发人工智能内容跟踪系统。了解更多: ... PC版: 手机版:

封面图片

中国脑机接口新突破清华大学团队实现高位截瘫患者脑控光标

中国脑机接口新突破清华大学团队实现高位截瘫患者脑控光标 这意味着中国在脑机接口领域迎来又一个突破性进展。据介绍,患者因意外事故导致颈椎C3-C4节段高位截瘫,完全失去自理能力。去年12月,由贾旺团队为患者成功实施微创无线脑机接口NEO(Neural Electronic Opportunity)植入手术。经过两个月的康复训练,患者实现了通过意念活动驱动气动手套抓握水瓶等脑机接口运动辅助功能,同时还实现了在普通家居环境中,仅凭意念就可控制电脑屏幕光标移动。根据康复计划中,团队将进一步训练患者通过意念活动控制电子书翻页、光标点击确认等,增强患者与电子设备的交互性。值得一提的是,今年1月,宣武医院与清华大学团队共同宣布首例患者脑机接口康复取得突破性进展。首例接受脑机接口处理器植入脑内的患者是一位车祸引起的颈椎处脊髓完全性损伤(ASIA评分A级)的男性。脑机接口处理器为两枚硬币大小,植入患者颅骨中成功采集感觉运动脑区颅内神经信号。在3个月居家脑机接口康复训练后,该患者可通过脑电活动驱动气动手套,实现自主喝水等脑控功能,抓握解码准确率超过90%。官方表示,与马斯克旗下的Neuralink脑机接口不同,清华团队的系统是把电极放在大脑硬膜外,通过长期动物试验研制,不会破坏神经组织;采用近场无线供电和传输信号,体内无需电池。据了解,脑机接口技术未来有望在医疗、康复、娱乐等领域得到广泛应用。如脑机接口技术可用于帮助瘫痪患者恢复行走、说话等功能,用于帮助盲人、聋人感知周围环境。当然,该技术也能用于开发新的娱乐方式,比如脑机接口游戏等。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人