阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称,Qwen-VL 基于 Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL 均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源 LVLM使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

相关推荐

封面图片

【阿里巴巴发布两款开源人工智能模型】

【阿里巴巴发布两款开源人工智能模型】 科技巨头阿里巴巴集团于8月3日宣布,其云计算部门发布了两个开源人工智能(AI)模型。它的两个大型语言模型(LLM)被称为Qwen-7B和Qwen-7B-Chat,每个模型都有70亿个参数。 新模型旨在帮助将人工智能引入中小型企业的运营中。该公司表示,Qwen-7B和Qwen-7B-Chat具有对企业有吸引力的各种功能,例如能够“全世界的学者、研究人员和商业机构可以免费访问代码、模型权重和文档”。 8月1日,该公司还宣布对其AnalyticDB数据仓库服务进行矢量引擎更新,这将允许其企业客户快速创建定制的生成式AI应用程序。 快讯/广告 联系 @xingkong888885

封面图片

阿里巴巴达摩院发布开源文本转视频AI

阿里巴巴达摩院发布开源文本转视频AI 该模型基于多阶段文本到视频生成扩散模型,输入描述文本,返回符合文本描述的视频,支持英文输入。 整体模型参数约17亿,模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。可在或试用。

封面图片

阿里巴巴正式推出类似 GPT 的 AI 模型通义千问

阿里巴巴正式推出类似 GPT 的 AI 模型通义千问 上海,4 月 11 日(路透社)阿里巴巴集团控股有限公司周二推出了通义千问,这是一种类似于 GPT 的 AI 大语言模型,计划在不久的将来集成到公司的所有业务应用程序中。 它将首先集成到阿里巴巴的职场消息应用钉钉中,可用于总结会议记录、撰写电子邮件和起草商业计划书。 它还将被添加到阿里巴巴的语音助手天猫精灵中。 “我们正处于由生成人工智能和云计算驱动的技术分水岭时刻,各行各业的企业已经开始拥抱智能转型以保持领先地位,”首席执行官张勇在一份声明中表示。 阿里巴巴股价早盘上涨 3%。 阿里云计划向其客户开放通义千问,以便他们可以构建自己定制的大型语言模型。

封面图片

#苹果 #手机 #AI #阿里巴巴

#苹果 #手机 #AI #阿里巴巴 2.12 苹果公司近期与阿里巴巴达成合作,共同为中国iPhone用户开发人工智能(AI)功能。此前,苹果曾与百度合作,计划将其AI模型应用于iPhone,但由于技术和隐私方面的分歧,合作进展不顺利。 在评估了腾讯、字节跳动、阿里巴巴和DeepSeek等公司的AI模型后,苹果最终选择与阿里巴巴合作。 目前,双方已将共同开发的AI功能提交给中国的网络监管机构审批,预计将于2025年4月随iOS 18.5版本更新向用户开放。

封面图片

阿里巴巴的图像转视频模型在本周迅速走红,它抓取 TikTok 进行训练

阿里巴巴的图像转视频模型在本周迅速走红,它抓取 TikTok 视频进行训练 中国零售和科技巨头阿里巴巴的研究团队本周发布了一篇论文,详细介绍了一种新模型,他们称之为“”。网上对此的普遍反应是「RIP TikTokers」,暗示舞蹈类 TikTok 内容创作者将很快被人工智能取代。 该模型在接受输入「在他们的示例中为 TikTok 舞蹈视频」并创建一个新版本作为输出。其结果比之前尝试的类似模型略好。 阿里巴巴研究人员在论文中写道,他们使用的是“TikTok 数据集,包括 340 个训练和 100 个测试的单人舞蹈视频 (长 10-15 秒)”。该数据集源自明尼苏达大学 2021 年的一个项目“通过观看社交媒体舞蹈视频学习着装人类的高保真深度”,该项目概述了一种“人体深度估计和人体形状恢复方法”的技术,例如使用 AI 给视频中的某人穿上新衣服。

封面图片

【阿里巴巴张勇:AI基础设施和大模型能力将向所有企业开放】

【阿里巴巴张勇:AI基础设施和大模型能力将向所有企业开放】 阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇在云峰会上表示,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造。 阿里云已经累积了从飞天云操作系统、芯片到智算平台的“AI+ 云计算”的全栈技术实力,阿里云将把这些AI基础设施和大模型能力向所有企业开放,共同推动AI产业的发展。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人