阿里巴巴达摩院发布开源文本转视频AI

阿里巴巴达摩院发布开源文本转视频AI 该模型基于多阶段文本到视频生成扩散模型,输入描述文本,返回符合文本描述的视频,支持英文输入。 整体模型参数约17亿,模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。可在或试用。

相关推荐

封面图片

是一个多阶段的视频生成流程,将文本转图像、动作生成、参考图像嵌入和帧插值等模块集成到一个端到端的生成流水线中,能生成具有

是一个多阶段的视频生成流程,将文本转图像、视频动作生成、参考图像嵌入和帧插值等模块集成到一个端到端的视频生成流水线中,能生成具有出色保真度和流畅度的高分辨率视频。 MagicVideo-V2在美学质量和用户评估方面优于其他文本到视频系统。这一流程为从文本描述生成高质量视频提供了一种新的方法。

封面图片

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称,Qwen-VL 基于 Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL 均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源 LVLM使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

:阿里巴巴开发的高保真图像到视频生成开源模型 可以生成符合真实世界运动状态的

:阿里巴巴开发的高保真图像到视频生成开源模型 可以生成符合真实世界运动状态的视频 主要功能: 1、高保真视频生成:AtomoVideo可以从单一静态图像生成高保真的视频序列,视频中的内容不仅与原始图片保持高度一致,而且动作自然流畅。 2、动作强度和连贯性:AtomoVideo生成的视频具有自然流畅的动作和良好的时间连贯性。视频中的运动看起来既自然又符合逻辑,没有突兀或不自然的过渡。 为了让视频里的动作看起来自然,AtomoVideo引入了时间卷积和时间注意力模块,这些模块专门处理视频帧之间的时间关系,帮助模型预测下一帧画面的变化,从而实现连贯的视频动作。AtomoVideo会特别处理视频的时间信息,让图片中的物体像在真实世界那样随时间移动和变化。 3、个性化适配:AtomoVideo能够与不同的个性化文本到图像(T2I)模型兼容,无需进行特定调整,这让它能够广泛适用于各种场景。AtomoVideo还能结合文字描述来生成视频。比如,你给它一张静态的海边图片,并告诉它“海浪轻轻拍打沙滩”,它就能根据这个描述生成一段海浪真的拍打沙滩的视频。

封面图片

阿里巴巴达摩院医疗AI团队正在用AI诊癌

阿里巴巴达摩院医疗AI团队正在用AI诊癌 3个月之后,阿里巴巴“医疗AI多癌早筛公益项目”在浙江丽水启动,并在丽水市中心医院和景宁县人民医院完成了部署。从胰腺癌和骨质疏松两个病种的筛查入手,后续还将涵盖肝癌、食管癌、胃癌、结直肠癌等占据新发癌量38.1%的病灶发现,以及脂肪肝及肺结节等总计13个病种,借助最新的医疗AI技术,丽水的百姓们在日常检查中就可以顺便进行多癌、多病症的早筛。吕乐是达摩院医疗AI团队负责人,他希望这项研究在丽水能够帮助到更多医生,治愈更多病人。我自己亲戚也有癌症患者,也用了我们AI工具来判断是否肿瘤可切除。丽水来了PANDA丽水市中心医院放射科的周医生,最近的工作迎来了细微但又明显的变化。他日常所用的图像传输系统加载上了阿里达摩院的PANDA模型,除了熟悉的影像界面,他还多了得力的“AI助手”,会辅助显示检查结果和进行风险提示。在PANDA的帮助下,周医生进行了过往病例的筛查验证,有两例胰腺癌病例被发现在过去实际的检查环境下,这两个患者通过平扫CT所诊断出来的结果都是胰腺炎,是后续因为其它原因又做了增强CT或者增强磁共振后才确诊了胰腺癌他对“AI助手”的灵敏性非常满意。胰腺癌,被称为“癌王”,虽然不像胃癌、肝癌等癌种高发,但早期无明显症状,很难被发现,患者有症状来到医院时,一般已是晚期极难治愈,平均5年生存率仅10%。“针对胰腺癌变位置隐匿、在平扫CT图像中无明显表征等特点,我们构建了一个独特的深度学习框架,最终训练为胰腺癌早期检测模型。”达摩院医疗AI团队产品专家、PANDA项目相关负责人郭建飞说,模型所直面的就是针对胰腺癌的早筛,其原理就是利用AI放大并识别平扫CT图像中那些肉眼难以识别的细微的病灶特征。周医生所感知到的灵敏性,背后是PANDA落地丽水前就经历过的广泛临床验证。PANDA模型构建了一个包含3208名真实病人的训练集,最终通过了上海市胰腺疾病研究所、浙江大学医学院附属第一医院等10家医院/高校包含6239名病人的多中心验证,以及约2万名连续病人的真实世界临床验证,其胰腺癌识别敏感性相较于人工诊断提高了34.1%。另外,在PANDA发布之前,大家并不知道平扫CT可以用来检查癌症。过去对肿瘤的检测和诊断主要依赖于增强CT,需要给病人注射或者口服造影剂,并不适合大规模筛查使用。灵敏性和便利性,正是Nature Medicine给予PANDA评价的原因所在。PANDA的日常使用者除了放射科,还有体检科,郭建飞介绍说,它既有CT检查的高普及度,又兼顾人工智能的高灵敏度,可以在患者的日常体检与医院检查中进行癌症以及慢性病筛查,一次早筛多个癌种,将有效提高癌症的筛查效率,提高无症状人群的早期癌症发现率,从而改善癌症患者预后。对丽水百姓来说,他们也许并无明显的感知,但变化已经在发生。世界前沿的医学研究成果被率先落地到了丽水,他们到相关医院检查、体检时,不需花费额外的费用,就可以从单一的、浅层次的检查,变成早早地预知风险,大大提高疾病治愈率,也将大大节约个人与家庭的医疗开支和国家医保经费。一个黄金时代准备就绪在达摩院PANDA相关论文发表时,Nature Medicine杂志配发了一篇社评,名为《基于AI与医疗影像的肿瘤筛查:一个黄金时代准备就绪》(AI and imaging-based cancer screening: getting ready for prime time)。黄金时代,既是为该项研究的前沿性提出褒奖,也是对其未来能够规模化落地充满了期望,是“极具前途的方法”。对达摩院和阿里公益来说也是如此,他们希望通过技术的先进性来实现普惠和健康公平,用公益把医疗领域的先进成果更广泛、更持续地推广下去。PANDA落地丽水正是此意,丽水地处浙江山区,是阿里巴巴公益乡村振兴的重点支持区域。两家试点医院一家是丽水市中心医院,是市级的三甲医院,担负着全市主要的重急症健康保护工作,另一家是景宁县人民医院,是一个县级的二级医院。景宁也是阿里巴巴直接派驻乡村特派员帮扶的县域,它们基本上可以代表丽水地区的医疗卫生系统水平。这意味着我们真正走出了实验室的理想环境,到了基层的医疗系统之中。郭建飞这样认为,此前,PANDA合作的都是来自上海、北京、杭州等国内数一数二的胰腺病专科医院,设备先进、诊疗流程规范,因此用以研究的数据质量很高,模型的构筑和训练是相对可控的。但到了基层医院,郭建飞打了个比方,“就像高清的电视变成了一个雪花黑白电视的那种状态”,它们没有比肩一线医院的先进设备,很多现实情况不可控,但如此普通的医疗水平之下,虽对PANDA模型提出了更高的要求,但对其更大范围的普及却大有裨益。更重要的意义在于,丽水落地PANDA这个模式被验证成功之后,未来就可以批量地规模化复制,任何一家医院都能低成本地把PANDA模型复制过去,这是最大的意义。”郭建飞强调说。正如达摩院医疗AI团队负责人吕乐所说,“因为我们在做的这类东西如果做得好,就可以开放出来,这样才能真正地帮助到千千万万的病人。”怀揣公益、探索医疗AI的“梦之队”吕乐是约翰霍普金斯大学计算机科学博士,现在带领达摩院医疗AI团队前已从事医学影像和临床信息学方面的研发十余年,他希望搭建一个能帮助医生、治愈更多病人的研究团队。我自己亲戚也有癌症患者,也用了我们AI工具来判断是否肿瘤可切除;本地三甲医院的医生认为已经失去了手术机会,后来证明我们AI的判断结果和上海的顶级专科医院的专家判断是一致的,半年前病人已经手术成功,目前已经超过了本地三甲医院估计的生存期。在PANDA模型发表之后,吕乐也不禁感慨,“我们开展胰腺癌研究很长时间了,从来没想到会给自己的家人用到,人生是梦幻,也是命中注定。”达摩院工程师郭建飞也是同样“命中注定”要与PANDA结缘的人。20年前,他在中国医科大学本硕连读时,就对医学影像如何与计算机技术结合产生了浓厚的兴趣,还参与了国内第一本医学影像领域里的计算机辅助诊断教材。这样的追梦人,在达摩院医疗AI团队还有很多,对于一个个尚未找到解法的难题,他们并没有什么既定的方向可以追寻,只能靠在这个领域的科研积累和大胆假设来寻求突破,让AI通过大量的相关图像数据来学习、迭代。郭建飞坦言,PANDA在丽水的顺利推进,依靠的既有20多个来自达摩院的小伙伴,他还和阿里巴巴助力共富工作小组的子略成了背靠背的好伙伴,再加上丽水各个部门和医院的工作人员,大家组成了一支切切实实的“梦之队”。这种阵容的组合搭配,走出了丽水速度,打造了丽水样板,基于AI与医疗影像的肿瘤筛查,一个黄金时代准备就绪。 ... PC版: 手机版:

封面图片

OpenAI 发布介绍 Sora,文本转视频模型

OpenAI 发布介绍 Sora,文本转视频模型 OpenAI 发布介绍 Sora,文本转视频模型。Sora 能够创造出长达 60 秒的视频,展现高度详尽的场景、复杂的摄像机运动,以及多个角色充满活力的情感。 了解更多,请访问

封面图片

:最新的高性能全开源文本嵌入模型

:最新的高性能全开源文本嵌入模型 Nomic发布了第一个完全开源的文本嵌入模型Nomic Embed,其文本长度可达8192,性能超过OpenAI的Ada和其他开源模型。 Nomic Embed的模型权重、训练代码和用于训练的数据集都是完全开源的,可以进行全面审计。 Nomic Embed可以通过Nomic Atlas嵌入API进行商业部署,提供100万免费调用量,也可以通过Nomic Atlas企业版进行可靠、合规的企业级部署。 文本嵌入是现代NLP中一个关键组件,Nomic Embed通过多阶段的对比训练获得。首先预训练BERT,然后在大规模非监督数据上进行对比训练,最后在小规模标注数据上微调。 Nomic Embed在多个基准测试中表现强劲,尤其是在长文本任务上优于Ada。它提供了一个高性能且可审计的开源文本嵌入方案。 Nomic还发布了所有用于训练的数据,以实现完全的模型可审计性。希望社区可以基于Nomic Embed继续推进开源AI。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人