阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称,Qwen-VL 基于 Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL 均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源 LVLM使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

相关推荐

封面图片

阿里巴巴达摩院发布开源文本转视频AI

阿里巴巴达摩院发布开源文本转视频AI 该模型基于多阶段文本到视频生成扩散模型,输入描述文本,返回符合文本描述的视频,支持英文输入。 整体模型参数约17亿,模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。可在或试用。

封面图片

阿里巴巴正式推出类似 GPT 的 AI 模型通义千问

阿里巴巴正式推出类似 GPT 的 AI 模型通义千问 上海,4 月 11 日(路透社)阿里巴巴集团控股有限公司周二推出了通义千问,这是一种类似于 GPT 的 AI 大语言模型,计划在不久的将来集成到公司的所有业务应用程序中。 它将首先集成到阿里巴巴的职场消息应用钉钉中,可用于总结会议记录、撰写电子邮件和起草商业计划书。 它还将被添加到阿里巴巴的语音助手天猫精灵中。 “我们正处于由生成人工智能和云计算驱动的技术分水岭时刻,各行各业的企业已经开始拥抱智能转型以保持领先地位,”首席执行官张勇在一份声明中表示。 阿里巴巴股价早盘上涨 3%。 阿里云计划向其客户开放通义千问,以便他们可以构建自己定制的大型语言模型。

封面图片

#苹果 #手机 #AI #阿里巴巴

#苹果 #手机 #AI #阿里巴巴 2.12 苹果公司近期与阿里巴巴达成合作,共同为中国iPhone用户开发人工智能(AI)功能。此前,苹果曾与百度合作,计划将其AI模型应用于iPhone,但由于技术和隐私方面的分歧,合作进展不顺利。 在评估了腾讯、字节跳动、阿里巴巴和DeepSeek等公司的AI模型后,苹果最终选择与阿里巴巴合作。 目前,双方已将共同开发的AI功能提交给中国的网络监管机构审批,预计将于2025年4月随iOS 18.5版本更新向用户开放。

封面图片

阿里巴巴的图像转视频模型在本周迅速走红,它抓取 TikTok 进行训练

阿里巴巴的图像转视频模型在本周迅速走红,它抓取 TikTok 视频进行训练 中国零售和科技巨头阿里巴巴的研究团队本周发布了一篇论文,详细介绍了一种新模型,他们称之为“”。网上对此的普遍反应是「RIP TikTokers」,暗示舞蹈类 TikTok 内容创作者将很快被人工智能取代。 该模型在接受输入「在他们的示例中为 TikTok 舞蹈视频」并创建一个新版本作为输出。其结果比之前尝试的类似模型略好。 阿里巴巴研究人员在论文中写道,他们使用的是“TikTok 数据集,包括 340 个训练和 100 个测试的单人舞蹈视频 (长 10-15 秒)”。该数据集源自明尼苏达大学 2021 年的一个项目“通过观看社交媒体舞蹈视频学习着装人类的高保真深度”,该项目概述了一种“人体深度估计和人体形状恢复方法”的技术,例如使用 AI 给视频中的某人穿上新衣服。

封面图片

阿里巴巴向公众开放人工智能模型“通义千问”

阿里巴巴向公众开放人工智能模型“通义千问” 路透上海9月13日 - 阿里巴巴周三表示,将向公众开放其人工智能模型“通义千问”,这表明该公司已获得中国监管部门批准大规模销售该模型。 随着人工智能技术日益成为与美国竞争的焦点,中国当局最近加大力度支持企业开发人工智能。 据阿里云智能事业部微信公众号发布的消息称,OPPO、淘宝、钉钉、浙江大学等机构已达成合作协议,将训练自己的大型语言模型或基于通义千问开发语言模型应用。 该帖子还表示,在不久的将来,大语言模型的开源版本将可供“全社会”免费商业使用。

封面图片

:阿里巴巴开发的高保真图像到视频生成开源模型 可以生成符合真实世界运动状态的

:阿里巴巴开发的高保真图像到视频生成开源模型 可以生成符合真实世界运动状态的视频 主要功能: 1、高保真视频生成:AtomoVideo可以从单一静态图像生成高保真的视频序列,视频中的内容不仅与原始图片保持高度一致,而且动作自然流畅。 2、动作强度和连贯性:AtomoVideo生成的视频具有自然流畅的动作和良好的时间连贯性。视频中的运动看起来既自然又符合逻辑,没有突兀或不自然的过渡。 为了让视频里的动作看起来自然,AtomoVideo引入了时间卷积和时间注意力模块,这些模块专门处理视频帧之间的时间关系,帮助模型预测下一帧画面的变化,从而实现连贯的视频动作。AtomoVideo会特别处理视频的时间信息,让图片中的物体像在真实世界那样随时间移动和变化。 3、个性化适配:AtomoVideo能够与不同的个性化文本到图像(T2I)模型兼容,无需进行特定调整,这让它能够广泛适用于各种场景。AtomoVideo还能结合文字描述来生成视频。比如,你给它一张静态的海边图片,并告诉它“海浪轻轻拍打沙滩”,它就能根据这个描述生成一段海浪真的拍打沙滩的视频。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人