阿里云通义千问 App 上线“通义舞王”：一张照片就能生成跳舞视频

阿里云旗下的通义千问App近日上线了一项免费的新功能“通义舞王”：用户在按照提示要求上传照片后，经过十几分钟的等待，即可自动生成舞蹈视频。据介绍，该功能背后的算法为阿里通义实验室自研的视频生成模型AnimateAnyone。用户使用人物全身照片生成的舞蹈视频号称能够保留原始形象的面部表情、身材比例、服装乃至背景等特征。当前该功能内置了12种舞蹈模板，包括当前较为热门的“科目三”，还有蒙古舞、划桨舞、鬼步舞等等。via匿名标签:#通义千问频道:@GodlyNews1投稿:@GodlyNewsBot

在Telegram中查看

相关推荐

阿里云的AI模型EMO上线通义App，允许用户通过照片和音频生成唱歌视频

阿里云的AI模型EMO上线通义App，允许用户通过照片和音频生成唱歌视频由通义实验室研发的AI模型EMO已在通义App上线，供用户免费使用。EMO是一个音频驱动的AI肖像视频生成系统，能够根据输入的参考图像和语音音频生成具有表现力的面部表情和头部姿势视频。用户可以选择多种模板，如热门歌曲或网络热梗，上传肖像照片后，EMO将合成相应的唱歌视频。目前，App提供了80多个模板，但不支持自定义音频。EMO的主要特点包括音频驱动的视频生成、高表现力和逼真度、无缝帧过渡、身份保持、稳定的控制机制、灵活的视频时长以及跨语言和风格的适应能力。此外，EMO的官方项目主页、研究论文和GitHub链接均已提供，模型和源码将待开源。关注频道@TestFlightCN

抖音跳舞不用真人出镜一张照片就能生成高质量视频

抖音跳舞不用真人出镜一张照片就能生成高质量视频真实的打开方式是这样的：这就是来自新加坡国立大学和字节跳动最新的一项研究，名叫MagicAnimate。它的作用简单来说可以总结为一个公式：一张图片+一组动作=毫无违和感的视频。然后啊，这项技术一经公布，可谓是在科技圈里掀起了不小的波澜，众多科技大佬和极客们纷纷下场耍了起来。就连HuggingFaceCTO都拿自己的头像体验了一把：顺便还风趣地开了句玩笑：这算是健身了吧？我这周可以不去健身房了。还有相当与时俱进的网友，拿着刚出炉的GTA6（侠盗猎车手6）预告片中的人物玩了一把：甚至就连表情包们也成了网友们pick的对象……MagicAnimate可以说是把科技圈的目光聚焦到了自己身上，因此也有网友调侃说：OpenAI可以休息一下了。火，着实是火。一张图即可生成一段舞那么如此火爆的MagicAnimate，该如何“食用”？话不多说，我们现在就来手把手地体验一次。目前项目团队已经在HuggingFace中开放了在线体验的页面：操作也是非常得简单，只需三步即可：上传一张静态人物照片上传想要生成的动作demo视频调整参数，点击“Animate”即可例如下面就是鄙人照片和一段近期席卷全球的《科目三》舞蹈片段：△视频源：抖音（ID：QC0217）也可以选择页面下方提供的模版进行体验：不过需要注意的是，由于MagicAnimate目前过于火爆，在生成的过程中可能会出现“宕机”的情况：即便成功“食用”，可能也得排大队……（没错！截至发稿，还是没有等到结果！）除此之外，MagicAnimate在GitHub中也给出了本地体验的方式，感兴趣的小伙伴可以试试哦~那么接下来的一个问题便是：怎么做到的？整体而言，MagicAnimate采用的是基于扩散模型（diffusion）的一个框架，目的就是增强时间一致性、保持参考图像的真实性，并提高动画保真度。为此，团队首先开发了一个视频扩散模型（TemporalConsistencyModeling）来编码时间信息。这个模型通过在扩散网络中加入时间注意力模块，来编码时间信息，从而确保动画中各帧之间的时间一致性。其次，为了保持帧间的外观一致性，团队引入了一种新的外观编码器（AppearanceEncoder）来保留参考图像的复杂细节。这个编码器与以往使用CLIP编码的方法不同，能够提取密集的视觉特征来引导动画，从而更好地保留身份、背景和服装等信息。在这两项创新技术的基础之上，团队进一步采用了一种简单的视频融合技术（VideoFusionTechnique）来促进长视频动画的平滑过渡。最终，在两个基准上的实验表明，MagicAnimate的结果要远优于以往的方法。尤其是在具有挑战性的TikTok舞蹈数据集上，MagicAnimate在视频保真度方面比最强基线高出38%以上！团队所给出的定性比较如下：以及与cross-ID的SOTA基线相比，结果如下：OneMoreThing不得不说，诸如MagicAnimate的项目最近着实是有点火爆。这不，在它“出道”前不久，阿里团队也发布了一个名叫AnimateAnyone的项目，同样是只要“一张图”和“想要的动作”：由此，也有网友发出了疑问：这似乎是MagicAnimate和AnimateAnyone之间的战争。谁更胜一筹？...PC版：https://www.cnbeta.com.tw/articles/soft/1402409.htm手机版：https://m.cnbeta.com.tw/view/1402409.htm

阿里云发布通义千问2.5 称性能赶超 GPT-4

阿里云发布通义千问2.5称性能赶超GPT-4阿里云9日正式发布通义千问2.5。阿里云方面表示，该模型性能全面赶超GPT-4Turbo。阿里云表示，与通义千问2.1版本相比，通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%；与GPT-4相比，中文语境下，通义千问2.5文本理解、文本生成、知识问答及生活建议、闲聊及对话、安全风险等多项能力赶超GPT-4。阿里云称，在权威基准OpenCompass上，通义千问2.5得分追平GPT-4Turbo，是中国国产大模型首次在该基准取得该项成绩。——

阿里云AI大模型通义千问正式开放

阿里云AI大模型通义千问正式开放阿里云星期三（9月13日）宣布通义千问大模型已首批通过备案，并正式向公众开放。据“阿里云”公众号消息，阿里云方面介绍，通义千问在技术创新和行业应用上均位居大模型行业前列。IDC最新的AI大模型评估报告显示，通义千问在全部11项测试中获得通用能力、服务能力、创新能力、服务能力、平台能力、生态合作、电商行业应用六项满分，名列前茅。用户可登录通义千问官网体验，企业用户可以通过阿里云调用通义千问API。据阿里云方面介绍，今年4月，阿里云通义千问开启邀测，仅一个月就有超20万企业和机构用户申请接入通义千问测试。目前，OPPO、得物、钉钉、淘宝、浙江大学等已与阿里云达成合作，基于通义千问训练自己的专属大模型或开发大模型应用。阿里云是中国首个开源自研大模型的科技大厂。阿里云方面表示，近期将开源一个更大参数规模的大模型版本，供全社会免费商用。阿里云希望和全行业共建大模型开源生态，降低大模型使用的门槛，让大模型技术更好地为每个企业和个人所用。

阿里云AI机器人通义千问向更多用户发放使用权限

阿里云AI机器人通义千问向更多用户发放使用权限目前阿里云似乎已经向大量用户发放使用权限，已经申请的用户可以检查自己的邮箱看看是否收到测试通知。尚未申请权限的用户可以立即申请通义千问使用权限，运气好的话，申请之后很快就可以直接使用通义千问。阿里云通义千问还内置百宝袋，百宝袋里内置现成的模板，相当于提示词可以快速生成内容。具体包括写提纲、SWOT分析、商品描述生成、会放飞的菜谱、彩虹屁专家、写情书、为你写诗、小作文等。申请方法：注册阿里云账户：https://ourl.co/alifrs(如有请跳过)，登录通义千问申请邀请码：https://ourl.co/alillm通义千问去水印油猴脚本，安装后可去水印：https://greasyfork.org/zh-CN/scripts/466485-通义千问助手来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

阿里通义千问升级：免费开放 1000 万字长文档处理功能

阿里通义千问宣布升级，向所有人免费开放1000万字的长文档处理功能。据了解，即日起，所有金融、法律、科研、医疗、教育等领域的专业人士，都可通过通义千问网站和App快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。比如在金融领域，上传一份公司财报，通义千问即可自动提取和总结公司各业务的营收情况和利润增长等核心信息，生成公司整体业绩表现的总结。上传公司不同时期的财报后，通义千问可生成公司在这一阶段内的业务变化、业绩趋势并进行财报分析。在法律领域，律师和法官通常需要阅读数十万甚至上百万字的法律文档，人肉阅读耗时耗力，通义千问能够快速阅读和分析法律文件，迅速掌握法律条文要点，输入特定案件信息后，通义千问还可给出相应的判罚建议。据阿里称，目前通义千问的文档处理容量和能力，已超越ChatGPT等全世界市场上所有的AI应用。via匿名标签:#通义千问#AI频道:@GodlyNews1投稿:@GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人