阿里云宣布自研EMO模型上线通义App，用照片+音频生成唱歌视频-IT之家https://www.ithome.com/0/76

阿里云的AI模型EMO上线通义App，允许用户通过照片和音频生成唱歌视频

阿里云的AI模型EMO上线通义App，允许用户通过照片和音频生成唱歌视频由通义实验室研发的AI模型EMO已在通义App上线，供用户免费使用。EMO是一个音频驱动的AI肖像视频生成系统，能够根据输入的参考图像和语音音频生成具有表现力的面部表情和头部姿势视频。用户可以选择多种模板，如热门歌曲或网络热梗，上传肖像照片后，EMO将合成相应的唱歌视频。目前，App提供了80多个模板，但不支持自定义音频。EMO的主要特点包括音频驱动的视频生成、高表现力和逼真度、无缝帧过渡、身份保持、稳定的控制机制、灵活的视频时长以及跨语言和风格的适应能力。此外，EMO的官方项目主页、研究论文和GitHub链接均已提供，模型和源码将待开源。关注频道@TestFlightCN

让蒙娜丽莎唱饶舌，微软发布VASA-1模型：图+音频可生成短视频-IT之家https://www.ithome.com/0/76

EMO模型全量免费上线通义App，将尽快开放企业客户合作阿里通义实验室研发的视频生成模型EMO昨天上线通义App，免费对所有人开

4月26日消息，阿里通义实验室研发的视频生成模型EMO昨天上线通义APP，免费对所有人开放，应用全量开放的瞬间，通义APP一度被

4月26日消息，阿里通义实验室研发的视频生成模型EMO昨天上线通义APP，免费对所有人开放，应用全量开放的瞬间，通义APP一度被挤爆，需要排队数小时。在通义APP的“全民舞台”频道内，用户上传一张肖像照就能让图中人物唱歌说话，嘴型、表情、神态都栩栩如生。EMO自2月底公布模型论文以来在海内外引发广泛关注，外媒将其与OpenAI的Sora模型相提并论，国内外多家科技巨头快速跟进同类模型的研发。据悉，通义实验室已接到大量企业客户的问询，正在加速推进算法迭代和安全策略论证，将尽快开放企业客户合作。（全天候科技）

云从科技：从容大模型支持通过文本和音频生成图像和视频

云从科技：从容大模型支持通过文本和音频生成图像和视频OpenAI的视频生成模型Sora引发关注，云从科技相关负责人表示，云从科技在视觉方面积累较为深厚，目前，从容大模型已实现利用diffusion、GAN等生成式技术围绕人物图像、人物视频数据进行建模，通过文本和音频实现对图像和视频内容进行生成、控制、编辑。应用上，云从科技与天津港、华为等共同开发港口大模型PortGPT，核心是AI智能体天天，通过AI生成交互画面，协同数据分析，提高港口运转效率及安全性。此外，还在文生图像、视频等跨模态领域积极布局，包括发布数字人能力平台，生成AI视频；与中国电信合作AI营销海报生成等。（科创板日报）

阿里云宣布自研EMO模型上线通义App，用照片+音频生成唱歌视频-IT之家https://www.ithome.com/0/76

相关推荐

阿里云的AI模型EMO上线通义App，允许用户通过照片和音频生成唱歌视频

让蒙娜丽莎唱饶舌，微软发布VASA-1模型：图+音频可生成短视频-IT之家https://www.ithome.com/0/76

EMO模型全量免费上线通义App，将尽快开放企业客户合作阿里通义实验室研发的视频生成模型EMO昨天上线通义App，免费对所有人开

4月26日消息，阿里通义实验室研发的视频生成模型EMO昨天上线通义APP，免费对所有人开放，应用全量开放的瞬间，通义APP一度被

云从科技：从容大模型支持通过文本和音频生成图像和视频

阿里云宣布EMO模型上线通义APP，已开放试用通义实验室研发的AI模型——EMO上线通义APP，可开放给所有用户免费使用。打开通