AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目蚂蚁集团开源了名为的新项目，其能够通过人像面部特征和音频来帮人物“对口型”，结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度，通过融合音频和面部标志点（面部关键特征和结构，通常位于眼、鼻、嘴等位置）的特征，可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频，也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉，其支持多语言（包含中文普通话、英语）及多风格，也可应对唱歌等场景。来源，频道：@kejiqu 群组：@kejiquchat

在Telegram中查看

相关推荐

国外爆火emo模型国内上线了，阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了，体验了一下非常强。

国外爆火emo模型国内上线了，阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了，体验了一下非常强。一张简单的照片加上克隆的语音模型，就可以定制自己的数字人出镜。 Heygen 之类的产品都需要录制一段相当长的视频，并且算力成本也很高，这个直接是免费的。明天开放公测，想要提前体验的同学可以找我要一个内测邀请码。而且不局限于写实的人像，3D 模型、二次元漫画都可以生成视频，生成一张自己喜欢的二次元图片然后加上自己的克隆语音就可以当Vtuber了。 EMO效果为什么这么自然：通过阅读EMO的论文发现，他们在talking head领域首次提出了weak condition（弱控制）的设计，即剔除掉了任何针对人脸的显示表征建模，转而采用一些相对较弱的控制条件来引导diffusion去噪过程，这一点其实灵感来源于文生图模型中，采用粗粒度的prompt描述来生成图片。他们在算法pipeline中加入了face locator和speed layers，分别用来控制人脸的生成区域（人头摆动幅度）与人头的动作频率。通过这些操作，可以最大化地保留diffusion模型强大的生成创造能力，由于没有针对表情的显示表征的限制，所生成的人脸表情都会有较高的丰富度，从而表现力有较大的提升 EMO没有针对人脸生成做过多的控制，人物会做什么表情，头部会如何运动，都是由模型从数据中学习到相关的知识决定。表情、口型的一致如何保证：模型会在训练中找到音频特征与图像中像素的对应关系，从而放大音频特征对于这些相关像素的影响，比如嘴部，眉眼等位置的像素，让图像中的人物表情口型与音频特征保持一致。 EMO在250小时的人物讲话视频上训练，不仅仅找到了audio中具体发音与人像口型的匹配关系，更重要是发现了音频中的语气特征与人物表情的关联性，从而将音频中的语气特征，甚至暗含的情绪色彩反映到了人物微表情上，它模型在训练中慢慢学习并编码了人类表达情绪的能力。

Bark，一个模拟声音的开源AI项目

Bark，一个模拟声音的开源AI项目可以生成所有类型的音频，并且基本上看不出与真实语音、音乐间的区别。这些音频包括音乐、背景噪音和一些简单的音效。是的，你没听错，你甚至可以拿它来生成音乐。该模型还可以产生非语言交流，如笑、叹息和哭泣。 Bark 支持各种语言，开箱即用，并根据输入文本自动确定语言。当提示使用代码切换文本时，Bark 将尝试使用相应语言的本地口音。英语质量目前是最好的，估计其他语言会随着扩展而进一步提高。 #AI 来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

Meta 发布开源 AI 工具 AudioCraft，用户可通过文本提示创作音乐、音频

Meta 发布开源 AI 工具 AudioCraft，用户可通过文本提示创作音乐、音频 Meta 开源了一款生成式 AI 工具 AudioCraft，可帮助用户通过文本提示创作音乐和音频。根据 Meta 官方介绍，AudioCraft 包含了三个核心组件： 1、MusicGen：使用 Meta 拥有 / 特别授权的音乐进行训练，根据文本提示生成音乐。 2、AudioGen：使用公共音效进行训练生成音频或扩展现有音频，后续还可生成环境音效（如狗叫、汽车鸣笛、木地板上的脚步声）。 3、EnCodec（改进版）：基于神经网络的音频压缩解码器，可生成更高质量的音乐并减少人工痕迹，或对音频文件进行无损压缩。该工具经过开源之后，相关研究人员和从业人员可以使用自己的数据集训练模型。官方宣称 AudioCraft 系列模型能够长期稳定地生成高质量音频，而且易于使用，能够为音乐家和声音设计师“提供灵感”，帮助他们快速集思广益，并“以新的方式迭代他们的作品”。 AudioCraft 项目地址：、

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频微软亚洲研究院发布了模型，该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA 代表 Visual Affective Skills Animator，它使用了机器学习分析静态图像和音频片段，然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了 VoxCeleb2 数据集训练了 VASA-1。该数据集包含了 6112 位名人的逾 100 万条话语，提取自上传到 YouTube 的视频。VASA-1 能以每秒最高 40 帧的速度生成 512x512 像素分辨率的视频，它潜在可用于深度伪造，研究人员没有公开模型源代码。#视频来源，频道：@kejiqu 群组：@kejiquchat

：蚂蚁集团开源的测试行业大模型工具。| #工具

：蚂蚁集团开源的测试行业大模型工具。| #工具该项目主要包含测试领域模型TestGPT-7B模型何其配套工具。与当前已有开源模型相比，TestGPT-7B模型在用例执行通过率（pass 1）、用例场景覆盖（平均测试场景数）上都处于业界领先水平。TestGPT-7B模型以CodeLlama-7B为基座，进行了相关下游任务的微调：多语言测试用例生成（Java/Python/Javascript）一直以来都是学术界和工业界非常关注的领域，近年来不断有新产品或工具孵化出来，如EvoSuite、Randoop、SmartUnit等。然而传统的用例生成存在其难以解决的痛点问题，基于大模型的测试用例生成在测试用例可读性、测试场景完整度、多语言支持方面都优于传统用例生成工具。本次重点支持了多语言测试用例生成，在我们本次开源的版本中首先包含了Java、Python、Javascript的测试用例生成能力，下一版本中逐步开放Go、C++等语言。测试用例Assert补全对当前测试用例现状的分析与探查时，我们发现代码仓库中存在一定比例的存量测试用例中未包含Assert。没有Assert的测试用例虽然能够在回归过程中执行通过，却无法发现问题。因此我们拓展了测试用例Assert自动补全这一场景。通过该模型能力，结合一定的工程化配套，可以实现对全库测试用例的批量自动补全，智能提升项目质量水位。

Meta公司发布开源AI作曲项目 MusicGen

Meta公司发布开源AI作曲项目 MusicGen Meta的MusicGen可以根据文本提示生成短小的音乐片段，还可以选择性地与现有的旋律对齐。和大多数当前的语言模型一样，MusicGen基于Transformer模型。就像语言模型预测句子中的下一个字符一样，MusicGen预测音乐作品中的下一个部分。研究人员使用Meta的EnCodec音频分词器将音频数据分解成更小的组件。作为一个单阶段模型，它可以并行处理标记，因此MusicGen快速而高效。团队使用了20,000小时的授权音乐进行训练。特别是他们依赖于一个内部数据集，其中包括10,000首高质量的音乐曲目，以及来自Shutterstock和Pond5的音乐数据。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人