MAGIC-ME 字节发布了一个针对视频生成中人物身份保持的项目。

MAGIC-ME 字节发布了一个针对视频生成中人物身份保持的项目。可以在视频生成中保持对应输入图像人物的身份特征，看起来还行，但是用名人演示不太好看出效果。项目简介：提出了一种简单却高效的主题身份可控视频生成框架，称之为视频定制扩散（Video Custom Diffusion，VCD）。通过定义一 ...

在Telegram中查看

相关推荐

字节跳动发布视频生成AI MagicEdit

字节跳动发布视频生成AI MagicEdit MagicEdit 是一种出奇简单但有效的文本引导视频编辑任务的解决方案，通过在AI训练期间明确地解开内容、结构和运动信号的学习，可以实现高保真和连贯的视频到视频翻译。这与大多数现有方法矛盾，大多数现有方法试图对它们进行联合建模，作者认为这会导致每帧画面的质量下降。结果表明 MagicEdit 的方法虽然很简单，但出色的效果支持各种下游视频编辑任务，包括风格滤镜、本地编辑、概念混合生成和扩展/局部绘制。

卧槽，Open AI的大招终于来了，发布视频生成模型 Sora，从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽，Open AI的大招终于来了，发布视频生成模型 Sora，从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。 Sora能够创作出长达一分钟的视频，不仅保证了视频的视觉质量，还能准确响应用户的指令。将在今天想有限的访问者开放。模型优势： Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求，还能洞察这些元素在现实世界中是如何存在和表现的。这款模型对语言的理解非常深刻，使其能够精准地识别用户的指令，并创造出表情丰富、情感生动的角色。此外，Sora还能在同一视频内制作多个镜头，同时确保角色的形象和整体的视觉风格保持一致。工作原理： Sora是一种扩散模型(diffusion model)，它通过从类似静态噪声的视频出发，逐步去除噪声，从而在多个步骤中生成视频。 Sora不仅能一次生成整个视频，还能延长已有视频的长度。我们通过使模型能够预见多个画面帧，解决了确保视频中主题即使暂时离开画面也能保持一致的难题。 Sora采用了类似于GPT模型的变压器架构(transformer architecture)，这为其带来了优异的扩展性能。在Sora中，视频和图像被表示为一系列小块数据，称为“补丁”(patches)，每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式，我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器，包括不同的时长、分辨率和长宽比。 Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E 3中的重标记技术(recaptioning technique)，为视觉训练数据生成详细描述的标题。因此，模型能更准确地遵循用户在生成视频中的文字指令。除了能从文字指令生成视频外，Sora还能将现有静止图像转化为视频，准确地动态展现图像内容并关注细节。此外，它还能扩展现有视频或填补视频中缺失的画面。了解更多：

Google DeepMind的新AI可以为视频生成配乐和对白

Google DeepMind的新AI可以为视频生成配乐和对白 DeepMind 写道："视频生成模型正以惊人的速度发展，但目前的许多系统只能生成无声输出。V2A技术[可能]成为让生成的电影栩栩如生的一种有前途的方法"。DeepMind的V2A技术可以将配乐描述（例如"水母在水下跳动、海洋生物、海洋"）与视频配对，创造出与视频中的人物和语气相匹配的音乐、音效甚至对话，并通过DeepMind的SynthID深度防伪技术打上水印。DeepMind 表示，为 V2A 提供动力的人工智能模型（一种扩散模型）是在声音和对话文本以及视频剪辑的组合上训练出来的。DeepMind 写道："通过对视频、音频和附加注释进行训练，我们的技术学会了将特定音频事件与各种视觉场景联系起来，同时对注释或文本中提供的信息做出响应。"关于训练数据是否受版权保护，以及数据创建者是否被告知 DeepMind 的工作，目前还不得而知。人工智能驱动的声音生成工具并不新鲜。创业公司 Stability AI 上周刚刚发布了一款，ElevenLabs 在 5 月份也推出了一款。创建视频音效的模型也不新鲜。微软的一个项目可以从静止图像中生成说话和唱歌视频，Pika和GenreX等平台已经训练出模型，可以获取视频并猜测特定场景中适合的音乐或效果。但 DeepMind 声称，其 V2A 技术的独特之处在于，它可以理解视频中的原始像素，并自动将生成的声音与视频同步，还可以选择不加说明。V2A 并不完美，DeepMind 也承认这一点。由于底层模型并没有在大量存在伪像或扭曲的视频上进行过训练，因此它并不能为这些视频生成特别高质量的音频。出于这些原因，同时也为了防止滥用，DeepMind 表示不会在短期内（如果有的话）向公众发布这项技术。DeepMind 写道："为了确保我们的 V2A 技术能够对创意社区产生积极影响，我们正在收集来自顶尖创作者和电影制作人的各种观点和见解，并利用这些宝贵的反馈意见来指导我们正在进行的研究和开发工作。在考虑向更广泛的公众开放之前，我们的 V2A 技术将接受严格的安全评估和测试。"DeepMind 的 V2A 技术对于档案管理员和处理历史片段的人来说是一种特别有用的工具。但是，按照这种思路进行的生成式人工智能也有可能颠覆电影和电视行业。要想确保生成式媒体工具不会消除工作岗位，或者说，消除整个职业，就需要一些强有力的劳动保护措施。 ... PC版：手机版：

微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。

微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。从显示效果来看基本不存在瑕疵了。视频生成的技术瓶颈又一个被突破。项目特点：可以捕捉到大量的情感和表情细微差别以及自然的头部动作，从而增强真实感和生动感。支持接受可选信号作为条件，例如主眼注视方向和头部距离，以及情绪偏移。能够处理超出训练分布的照片和音频输入。它可以处理艺术照片、歌唱音频和非英语语音。支持表情和姿势的编辑。在离线批处理模式下以每秒 45 帧的速度生成 512x512 大小的视频帧，在在线流模式下可支持高达每秒 40 帧的速度，之前的延迟时间仅为 170 毫秒。项目地址：

终于有时间尝试了一下这几天开放的SD视频生成项目Animatediff，下面是，卧槽这也太强了。

终于有时间尝试了一下这几天开放的SD视频生成项目Animatediff，下面是视频，卧槽这也太强了。新版还支持镜头控制，可以说是本地版本的Pika了。生成的视频比Pika清晰多了，而且比Runway要稳定很多，再加上SD强大的模型支持，这还用啥Pika。就是比较吃算力512的视频36帧4070ti要四五分钟。

卧槽，字节昨天发布这个项目DreamTuner，可以一举解决图像生成中角色一致性的问题。

卧槽，字节昨天发布这个项目DreamTuner，可以一举解决图像生成中角色一致性的问题。效果也太好了，可以将输入图片的角色在生成新图是完美保留，并且融合度非常好，这下小说、漫画和视频的人物一致性和商品一致性问题彻底解决了。并且可以和ContorlNet联动确保动画的稳定，间接实现了前段时间的让单张图片动起来的功能。项目简介：我们提出了一种新颖的方法DreamTurner，该方法将定制主题的参考信息从粗到细注入。首先提出了一个主题编码器，用于粗略主题身份保留，通过额外的注意力层在视觉-文本交叉注意力之前引入了压缩的一般主题特征。然后，注意到预训练的文本到图像模型中的自注意力层自然地执行了详细的空间上下文关联功能，我们将其修改为自主题注意力层，以细化目标主题的细节，生成的图像从参考图像和自身查询详细特征。值得强调的是，自主题注意力是一种优雅、有效且无需训练的方法，用于保持定制概念的详细特征，可在推断过程中作为即插即用的解决方案。最后，通过对单个图像进行额外微调，DreamTurner 在受主题驱动的图像生成方面取得了显著的表现，可由文本或其他条件（如姿势）进行控制。项目地址：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人