: 开源的高保真神经音频流编解码器,适用于48 kHz单声道语音,比特率为12.8 kbps。在GPU(约6毫秒)和CPU(约1

: 开源的高保真神经音频流编解码器,适用于48 kHz单声道语音,比特率为12.8 kbps。在GPU(约6毫秒)和CPU(约10毫秒)上具有非常低的解码延迟。通过高效的两阶段训练,可以在几个小时内为新应用训练编码器。

相关推荐

封面图片

谷歌发布 Lyra V2 超低比特率语音编解码器,可在 56kbps 网速下语音聊天

谷歌发布 Lyra V2 超低比特率语音编解码器,可在 56kbps 网速下语音聊天 谷歌宣布了用于低比特率的 Lyra 语音编解码器,与开放的 AV1 编解码器相结合,可以在 56kbps 的网速下实现语音聊天。Lyra 利用机器学习和其它技术进行极低比特率的语音压缩,甚至可以在 3kbps 的速度下工作。谷歌去年开放了 Lyra 的代码。 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

高通推出 aptX Lossless 蓝牙音频编解码器:蓝牙能听无损 CD 音质了

高通推出 aptX Lossless 蓝牙音频编解码器:蓝牙能听无损 CD 音质了 高通 aptX Lossless 是第一个蓝牙音频无损编解码器,它可以通过蓝牙精确传输CD质量(16bit/44.1kHz)的音频。压缩过程会将CD的1.4 Mbps比特率纳入更有限的1Mbps带宽。亦可以用于传输24bit/96kHz有损压缩音频流。() 比 SONY LDAC 的990kbps要高一丁点

封面图片

Vision Pro芯片级拆解:内含大量TI芯片 还有一颗国产芯片

Vision Pro芯片级拆解:内含大量TI芯片 还有一颗国产芯片 正如在上一篇的拆解文章当中所介绍的那样,虽然Vision Pro看上去只有一块主板,但实际上是两块PCB板,中间通过柔性PCB相连接在了一起。iFixit经过分析之后,对于这块主板上的相关芯片的型号予以了揭秘。首先,我们来看主板的正面,可以清晰的看到,下图中Vision Pro主板右侧上有一款带有苹果LOGO图标的芯片,这正是苹果M2处理器,左边印有苹果LOGO的芯片则是R1传感器协处理器。M2处理器主要负责运行visionOS,执行先进的计算机视觉算法等。R1协处理器则主要负责处理来自12个摄像头,5个其他类型传感器,6个麦克风的数据信号,加速对于传感器数据的处理,降低延迟,以保证内容呈现实时性,并降低主CPU的负载,降低功耗。苹果此前曾表示,R1芯片可以在12毫秒内将图像传输到显示器,实现几乎无延迟的实时传输。△红色:Apple APL1109/339S01081E M2 八核应用处理器和图形处理单元橙色:美光 MT62F1G64D8WT-031 XT:B 8 GB LPDDR5 SDRAM 内存黄色:苹果APL1W08/339S01186 R1 传感器协处理器绿色:铠侠 K5A4RC2097 256 GB NAND 闪存天蓝色:苹果APL109C/343S00627电源管理芯片蓝色:苹果APL109D/343S00628电源管理芯片紫色:苹果APL1004/343S00629电源管理芯片△红色:苹果338S00521-B0电源管理橙色:德州仪器 (TI) LMK1C1104时钟缓冲器黄色:ADI LT8652S 8.5 A / 18 V 双通道同步降压转换器绿色:德州仪器TPS62125 300 mA 降压转换器天蓝色:德州仪器 TPS61045可调升压转换器蓝色:安森美FPF2895C限流开关紫色:德州仪器 TPS70936 150 mA/3.6 V LDO 稳压器△红色:USI 339S01015 WiFi/蓝牙模块再来看主板的背面:△红色:ADI TMC5072双 2 相步进电机驱动器橙色:莱迪思半导体ICE5LP4K iCE40 Ultra FPGA黄色:可能是 Cirrus Logic CS46L11 音频编解码器绿色:Diodes Incorporated PI2DBS16212A 2:1 多路复用器/解复用器天蓝色:德州仪器TMUX1575四路 SPDT 模拟开关蓝色:德州仪器TS5A23159双 SPDT 模拟开关紫色:德州仪器 TPS62135 4 A 降压转换器△红色:具有集成基准的Texas Instruments TLV6703比较器橙色:安森美FPF2895C限流开关在看完了Vision Pro主机内部的主板芯片之后,iFixit还对于Vision Pro的外接电源内部的主板进行了分析。先来看充电板的正面:△红色:意法半导体STM32L4A6VG Arm Cortex-M4 微控制器橙色:兆易创新GD25Q80E 1 MB 串行 NOR 闪存黄色:德州仪器CD3217B13 USB Type-C 控制器绿色:德州仪器TPD4S311A USB Type-C 端口保护器天蓝色:德州仪器TPS62180 6 A 同步降压转换器蓝色:德州仪器TPS62160 1 A 降压转换器紫色:安森美FPF2895C限流开关△红色:Bosch Sensortec 加速度计再来看充电板的背面:△红色:瑞萨ISL9238C升降压电池充电器橙色:瑞萨RAA489800双向升降压稳压器△红色:德州仪器 TMP103A温度传感器橙色:德州仪器TMP103B温度传感器最后来看Vision Pro的扬声器主板:△红色:可能是 Cirrus Logic CS46L11 音频编解码器黄色:德州仪器 SN02776B0A 音频放大器绿色:德州仪器 TPS62135 4 A 降压转换器总结来看,在Vision Pro主机及配套的扬声器及外接电源当中,除了苹果的自研的处理器芯片之外,还有多颗苹果自研的电源管理芯片,以及大量的德州仪器的芯片,数量达到了17颗之多。令人意外的是,Vision Pro上还有一颗国产存储芯片厂商兆易创新的NorFlash芯片。 ... PC版: 手机版:

封面图片

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重 还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自Sora发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。短短两周时间后,该团队再次发布最新进展,复现类Sora方案,并将技术方案及详细上手教程在GitHub上免费开源。那么问题来了,复现Sora如何实现?Open-Sora 开源地址: Transformer (DiT) 。它以采用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层,将其扩展到视频数据上。具体来看,整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。其中,STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。与全注意力机制相比,这样的结构大大降低了训练和推理开销。与同样使用空间-时间注意力机制的 Latte模型相比,STDiT 可以更好的利用已经预训练好的图像 DiT 的权重,从而在视频数据上继续训练。STDiT结构示意图整个模型的训练和推理流程如下。据了解,在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。模型训练流程训练复现方案在训练复现部分,Open-Sora参考了Stable Video Diffusion (SVD)。一共分为3个阶段:大规模图像预训练;大规模视频预训练;高质量视频数据微调。每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。训练方案三阶段第一阶段是大规模图像预训练。团队利用互联网上丰富的图像数据和文生图技术,先训练出一个高质量的文生图模型,将该模型作为下一阶段视频预训练的初始化权重。同时,由于目前没有高质量的时空VAE,他们采用Stable Diffusion预训练好的图像VAE。这样不仅能保障初始模型的优越性能,还能显著降低视频预训练的整体成本。第二阶段是大规模视频预训练。这一阶段主要增加模型的泛化能力,有效掌握视频的时间序列关联。它需要使用大量视频数据训练,并且保障视频素材的多样性。同时,第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。Open-Sora生成效果(提示词:水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋)第三阶段是高质量视频数据微调。据介绍,这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级,但是视频的时长、分辨率和质量都更高。通过这种方式进行微调,能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。值得一提的是,Colossal-AI还详细透露了每阶段的资源使用情况。在Open-Sora的复现流程中,他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours,约合7000美元,第三阶段的训练量是1920 GPU hours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。数据预处理为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练。包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 GPT-4V。最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码,可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动Sora复现项目的技术门槛和前期准备。高效训练加持除此之外,Colossal-AI团队还提供了训练加速方案。通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。同时,得益于Colossal-AI的异构内存管理系统,在单台服务器上(8H800)可以无阻碍地进行1分钟的1080p高清视频训练任务。而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的DiT相比,随着帧数的增加,STDiT实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。最后,团队还放出了更多Open-Sora的生成效果。团队和量子位透露,他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性。实际应用方面,团队透露将推进在电影、游戏、广告等领域落地。感兴趣的开发者们,可访问GitHub项目了解更多~Open-Sora 开源地址: Scalable Diffusion Models with Transformers[2] PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis[3] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets[4] Latte: Latent Diffusion Transformer for Video Generation[5] ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人