阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称，Qwen-VL 基于 Qwen-7B，可以以图像、文本、检测框作为输入，并以文本和检测框作为输出，它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上，Qwen-VL 均取得同等通用模型大小下最好效果；支持英文、中文等多语言对话，端到端支持图片里中英双语的长文本识别；支持多图输入和比较，指定图片问答，多图文学创作等；相比于目前其它开源 LVLM使用的 224 分辨率，Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证，有限制条件，如果商业使用，则需要从阿里巴巴获得授权。来源，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

在Telegram中查看

相关推荐

阿里巴巴达摩院发布开源文本转视频AI

阿里巴巴达摩院发布开源文本转视频AI 该模型基于多阶段文本到视频生成扩散模型，输入描述文本，返回符合文本描述的视频，支持英文输入。整体模型参数约17亿，模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。可在或试用。

阿里巴巴正式推出类似 GPT 的 AI 模型通义千问

阿里巴巴正式推出类似 GPT 的 AI 模型通义千问上海，4 月 11 日（路透社）阿里巴巴集团控股有限公司周二推出了通义千问，这是一种类似于 GPT 的 AI 大语言模型，计划在不久的将来集成到公司的所有业务应用程序中。它将首先集成到阿里巴巴的职场消息应用钉钉中，可用于总结会议记录、撰写电子邮件和起草商业计划书。它还将被添加到阿里巴巴的语音助手天猫精灵中。 “我们正处于由生成人工智能和云计算驱动的技术分水岭时刻，各行各业的企业已经开始拥抱智能转型以保持领先地位，”首席执行官张勇在一份声明中表示。阿里巴巴股价早盘上涨 3%。阿里云计划向其客户开放通义千问，以便他们可以构建自己定制的大型语言模型。

#苹果 #手机 #AI #阿里巴巴

#苹果 #手机 #AI #阿里巴巴 2.12 苹果公司近期与阿里巴巴达成合作，共同为中国iPhone用户开发人工智能（AI）功能。此前，苹果曾与百度合作，计划将其AI模型应用于iPhone，但由于技术和隐私方面的分歧，合作进展不顺利。在评估了腾讯、字节跳动、阿里巴巴和DeepSeek等公司的AI模型后，苹果最终选择与阿里巴巴合作。目前，双方已将共同开发的AI功能提交给中国的网络监管机构审批，预计将于2025年4月随iOS 18.5版本更新向用户开放。

阿里巴巴的图像转视频模型在本周迅速走红，它抓取 TikTok 进行训练

阿里巴巴的图像转视频模型在本周迅速走红，它抓取 TikTok 视频进行训练中国零售和科技巨头阿里巴巴的研究团队本周发布了一篇论文，详细介绍了一种新模型，他们称之为“”。网上对此的普遍反应是「RIP TikTokers」，暗示舞蹈类 TikTok 内容创作者将很快被人工智能取代。该模型在接受输入「在他们的示例中为 TikTok 舞蹈视频」并创建一个新版本作为输出。其结果比之前尝试的类似模型略好。阿里巴巴研究人员在论文中写道，他们使用的是“TikTok 数据集，包括 340 个训练和 100 个测试的单人舞蹈视频 (长 10-15 秒)”。该数据集源自明尼苏达大学 2021 年的一个项目“通过观看社交媒体舞蹈视频学习着装人类的高保真深度”，该项目概述了一种“人体深度估计和人体形状恢复方法”的技术，例如使用 AI 给视频中的某人穿上新衣服。

阿里巴巴向公众开放人工智能模型“通义千问”

阿里巴巴向公众开放人工智能模型“通义千问” 路透上海9月13日 - 阿里巴巴周三表示，将向公众开放其人工智能模型“通义千问”，这表明该公司已获得中国监管部门批准大规模销售该模型。随着人工智能技术日益成为与美国竞争的焦点，中国当局最近加大力度支持企业开发人工智能。据阿里云智能事业部微信公众号发布的消息称，OPPO、淘宝、钉钉、浙江大学等机构已达成合作协议，将训练自己的大型语言模型或基于通义千问开发语言模型应用。该帖子还表示，在不久的将来，大语言模型的开源版本将可供“全社会”免费商业使用。

：阿里巴巴开发的高保真图像到视频生成开源模型可以生成符合真实世界运动状态的

：阿里巴巴开发的高保真图像到视频生成开源模型可以生成符合真实世界运动状态的视频主要功能： 1、高保真视频生成：AtomoVideo可以从单一静态图像生成高保真的视频序列，视频中的内容不仅与原始图片保持高度一致，而且动作自然流畅。 2、动作强度和连贯性：AtomoVideo生成的视频具有自然流畅的动作和良好的时间连贯性。视频中的运动看起来既自然又符合逻辑，没有突兀或不自然的过渡。为了让视频里的动作看起来自然，AtomoVideo引入了时间卷积和时间注意力模块，这些模块专门处理视频帧之间的时间关系，帮助模型预测下一帧画面的变化，从而实现连贯的视频动作。AtomoVideo会特别处理视频的时间信息，让图片中的物体像在真实世界那样随时间移动和变化。 3、个性化适配：AtomoVideo能够与不同的个性化文本到图像（T2I）模型兼容，无需进行特定调整，这让它能够广泛适用于各种场景。AtomoVideo还能结合文字描述来生成视频。比如，你给它一张静态的海边图片，并告诉它“海浪轻轻拍打沙滩”，它就能根据这个描述生成一段海浪真的拍打沙滩的视频。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人