MAGIC-ME 字节发布了一个针对视频生成中人物身份保持的项目。

MAGIC-ME 字节发布了一个针对视频生成中人物身份保持的项目。 可以在视频生成中保持对应输入图像人物的身份特征,看起来还行,但是用名人演示不太好看出效果。 项目简介: 提出了一种简单却高效的主题身份可控视频生成框架,称之为视频定制扩散(Video Custom Diffusion,VCD)。通过定义一 ...

相关推荐

封面图片

商汤发布首个 “可控” 人物视频生成大模型 Vimi

商汤发布首个 “可控” 人物视频生成大模型 Vimi 据界面新闻,商汤发布首个 “可控” 人物视频生成大模型 Vimi,该模型主要面向 C 端用户,支持聊天、唱歌、舞动等多种娱乐互动场景。商汤方面称,Vimi 可生成长达 1 分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,Vimi 基于商汤日日新大模型,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。

封面图片

字节跳动发布视频生成AI MagicEdit

字节跳动发布视频生成AI MagicEdit MagicEdit 是一种出奇简单但有效的文本引导视频编辑任务的解决方案,通过在AI训练期间明确地解开内容、结构和运动信号的学习,可以实现高保真和连贯的视频到视频翻译。 这与大多数现有方法矛盾,大多数现有方法试图对它们进行联合建模,作者认为这会导致每帧画面的质量下降。结果表明 MagicEdit 的方法虽然很简单,但出色的效果支持各种下游视频编辑任务,包括风格滤镜、本地编辑、概念混合生成和扩展/局部绘制。

封面图片

重磅!美国OpenAI发布首个视频生成模型

重磅!美国OpenAI发布首个视频生成模型 2月16日,OpenAI在其官网发布文生视频模型Sora。据介绍,该模型可以生成长达一分钟的视频,同时保持视觉标准并遵循用户提示。 该公司表示Sora能够生成复杂的场景,不仅包括多个角色,还有特定的动作类型,以及针对对象和背景的准确细节主题。除此之外,Sora还可以将静态图像制作成动画。 PS:我有个想法

封面图片

卧槽,Open AI的大招终于来了,发布视频生成模型 Sora,从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽,Open AI的大招终于来了,发布视频生成模型 Sora,从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。 Sora能够创作出长达一分钟的视频,不仅保证了视频的视觉质量,还能准确响应用户的指令。将在今天想有限的访问者开放。 模型优势: Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求,还能洞察这些元素在现实世界中是如何存在和表现的。 这款模型对语言的理解非常深刻,使其能够精准地识别用户的指令,并创造出表情丰富、情感生动的角色。此外,Sora还能在同一视频内制作多个镜头,同时确保角色的形象和整体的视觉风格保持一致。 工作原理: Sora是一种扩散模型(diffusion model),它通过从类似静态噪声的视频出发,逐步去除噪声,从而在多个步骤中生成视频。 Sora不仅能一次生成整个视频,还能延长已有视频的长度。我们通过使模型能够预见多个画面帧,解决了确保视频中主题即使暂时离开画面也能保持一致的难题。 Sora采用了类似于GPT模型的变压器架构(transformer architecture),这为其带来了优异的扩展性能。 在Sora中,视频和图像被表示为一系列小块数据,称为“补丁”(patches),每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式,我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器,包括不同的时长、分辨率和长宽比。 Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E 3中的重标记技术(recaptioning technique),为视觉训练数据生成详细描述的标题。因此,模型能更准确地遵循用户在生成视频中的文字指令。 除了能从文字指令生成视频外,Sora还能将现有静止图像转化为视频,准确地动态展现图像内容并关注细节。此外,它还能扩展现有视频或填补视频中缺失的画面。 了解更多:

封面图片

7 月 4 日,世界人工智能大会(WAIC 2024)在上海召开,由商汤科技打造的首个面向 C 端用户的可控人物视频生成大模型

7 月 4 日,世界人工智能大会(WAIC 2024)在上海召开,由商汤科技打造的首个面向 C 端用户的可控人物视频生成大模型 Vimi 入选 WAIC 展览展示最高荣誉 “镇馆之宝”。华尔街见闻获悉,Vimi 基于商汤日日新大模型的能力,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。(全天候科技)

封面图片

微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。

微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。 从显示效果来看基本不存在瑕疵了。视频生成的技术瓶颈又一个被突破。 项目特点: 可以捕捉到大量的情感和表情细微差别以及自然的头部动作,从而增强真实感和生动感。 支持接受可选信号作为条件,例如主眼注视方向和头部距离,以及情绪偏移。 能够处理超出训练分布的照片和音频输入。它可以处理艺术照片、歌唱音频和非英语语音。 支持表情和姿势的编辑。 在离线批处理模式下以每秒 45 帧的速度生成 512x512 大小的视频帧,在在线流模式下可支持高达每秒 40 帧的速度,之前的延迟时间仅为 170 毫秒。 项目地址:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人