Hallo 是一款人工智能工具,可根据给定音频生成高度逼真的视频头像。

Hallo是一款人工智能工具,可根据给定音频生成高度逼真的视频头像。Hallo采用端到端扩散方法,并实现了分层音频驱动的视觉合成模块。该模块通过包含唇部动作、面部表情和姿势,提高了音频输入和视觉输出匹配的准确性。Hallo最近在GitHub上发布了第一个版本,并从HuggingFace存储库中发布了预训练模型。https://github.com/fudan-generative-vision/halloHuggingFace:https://huggingface.co/fudan-generative-ai/hallo#tools#AI

相关推荐

封面图片

Bark是由Suno创建的文本提示生成音频模型。Bark可以生成高度逼真的多语言语音以及其他音频 - 包括音乐,背景噪音和简单

Bark是由Suno创建的文本提示生成音频模型。Bark可以生成高度逼真的多语言语音以及其他音频-包括音乐,背景噪音和简单的音效。该模型还可以产生非语言交流,如笑、叹息和哭泣。Bark已经过测试,可以在CPU和GPU上运行(CUDA11.7和CUDA12.0)。pytorch2.0+,可用于商业用途。链接:https://github.com/suno-ai/bark标签:#AI#语音合成群聊:@appmiu

封面图片

阿里云的AI模型EMO上线通义App,允许用户通过照片和音频生成唱歌视频

阿里云的AI模型EMO上线通义App,允许用户通过照片和音频生成唱歌视频由通义实验室研发的AI模型EMO已在通义App上线,供用户免费使用。EMO是一个音频驱动的AI肖像视频生成系统,能够根据输入的参考图像和语音音频生成具有表现力的面部表情和头部姿势视频。用户可以选择多种模板,如热门歌曲或网络热梗,上传肖像照片后,EMO将合成相应的唱歌视频。目前,App提供了80多个模板,但不支持自定义音频。EMO的主要特点包括音频驱动的视频生成、高表现力和逼真度、无缝帧过渡、身份保持、稳定的控制机制、灵活的视频时长以及跨语言和风格的适应能力。此外,EMO的官方项目主页、研究论文和GitHub链接均已提供,模型和源码将待开源。关注频道@TestFlightCN

封面图片

Stability AI正式发布了DeepFloyd IF图像生成模型,这是一个有文本编码器和三个级联的diffusion模块组

StabilityAI正式发布了DeepFloydIF图像生成模型,这是一个有文本编码器和三个级联的diffusion模块组合的模型。这个模型的效率要比原有的satblediffusion效率要高很多。我尝试了一下,看起来效果也比SD2.0强一些。划重点,这个模型是认字的生成出来的英文非常工整。文章链接:https://stability.ai/blog/deepfloyd-if-text-to-image-model可以在这里体验模型:https://huggingface.co/spaces/DeepFloyd/IFGithub:https://github.com/deep-floyd/IF模型网站:https://deepfloyd.ai/if

封面图片

这个可能比较重要,北大发布一个新的图像生成框架VAR。

这个可能比较重要,北大发布一个新的图像生成框架VAR。VAR首次使GPT风格的AR模型在图像生成上超越了Diffusiontransformer。同时展现出了与大语言模型观察到的类似Scalinglaws的规律。在ImageNet256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。详细介绍:视觉自回归模型(VAR)是一种新的图像生成范式,它将自回归学习重新定义为从粗到细的"下一尺度预测"或"下一分辨率预测",有别于标准的光栅扫描"下一token预测"。这种简单直观的方法让自回归transformer能够快速学习视觉分布并具有良好的泛化能力:VAR首次使GPT风格的AR模型在图像生成上超越了扩散transformer。在ImageNet256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。实证验证了VAR在多个维度包括图像质量、推理速度、数据效率和可扩展性上都优于DiffusionTransformer。随着VAR模型的扩大,它展现出了与大语言模型观察到的类似幂律缩放规律,线性相关系数接近-0.998,有力证明了这一点。VAR进一步展示了在下游任务如图像修复、外推和编辑上的零样本泛化能力。这些结果表明,VAR初步模拟了大语言模型的两个重要特性:缩放规律和零样本泛化。研究人员已经公开了所有模型和代码,以促进AR/VAR模型在视觉生成和统一学习中的探索。VAR算法为计算机视觉中的自回归算法设计提供了新的见解,有望推动这一领域的进一步发展。项目地址:https://github.com/FoundationVision/VARDemo地址,生成速度真的非常快:https://var.vision/demo模型下载:https://huggingface.co/FoundationVision/var/tree/main

封面图片

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT:一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力,PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合(如上图所示)。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐,PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本,PandaGPT只更新了以下模块:在ImageBind的编码结果上新增一个线性投影矩阵,将ImageBind生成的表示转换后插入到Vicuna的输入序列中;在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是,训练过程中仅对模型输出对应部分进行权重更新,不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是,目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练,但是继承了ImageBind编码器的六种模态理解能力(图像/视频、文本、音频、深度度、热量图和IMU)和它们之间的对齐属性,从而具备在所有模态之间跨模态能力。在实验中,作者展示了PandaGPT对不同模态的理解能力,包括基于图像/视频的问答,基于图像/视频的创意写作,基于视觉和听觉信息的推理等等,下面是一些例子:图像:音频:视频:与其他多模态语言模型相比,PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频:图像+音频:总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力,但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力,例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中,即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷,包括幻觉、毒性和刻板印象。最后,作者们强调,PandaGPT仅仅是一个研究原型,暂时还不足以直接应用于生产环境。...PC版:https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版:https://m.cnbeta.com.tw/view/1363375.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人