Meta 开源发布可分割识别任意图像中主体的 SAM 模型

Meta 开源发布可分割识别任意图像中主体的 SAM 模型 已经理解了对象是什么的一般概念,可以直接对没见过的图像进行分割任务 (识别像素属于哪个对象)。Meta 还同时开源发布了比任何现有分割数据集大400倍的 SA-1B 数据集。 SAM 可以成为庞大AI系统的一部分,用于对世界进行多模态理解,例如理解图像和文本。SAM 可以在 AR/VR 中根据用户的视线选择对象,进行识别查询或者3D建模。SAM 可以进行智能抠图或视频后期。SAM 还可用于地球与太空的科学任务,对动物和物体进行定位,例如细胞显微镜,牧场的动物识别,天体运行跟踪。

相关推荐

封面图片

Meta 新模型:SAM来了~惊人的通用性,图像内物件分割的超级利器!

Meta 新模型:SAM来了~惊人的通用性,图像内物件分割的超级利器! Meta AI 发布了最新的图像分割模型Segment Anything(SAM), 能够从任何照片或视频中一键分割任何对象+零样本转移到其他分割任务。 这意味着它在商品识别(制作)、机器人视觉、医学图像诊断、自动驾驶、视频剪辑、增强现实等领域发挥重要作用。 以下是它的主要特性: 1⃣ 满足图像分割的通用需求。SAM 是一个通用的、可提示的图像分割模型。它可以通过简单的交互(如点击、框选、文本等)来进行交互式分割和自动分割,表征其可控性。 2⃣ 零样本学习能力。 数据集包括超过11亿个分割masks,这些masks是在大约1100万张有执照和保护隐私的图像上收集的;Sam 已经学会了关于物体是什么的通用概念这种理解使得对不熟悉的物体和图像进行零距离的概括,而不需要额外训练。 3⃣ 高效和速度。SAM 能在50毫秒内根据任何提示实时生成一个分割,这代表其具有实时性的应用可能性。 4⃣ 丰富的多样化场景。SAM 生成多个有效的mask来处理模糊或不确定的情况。这意味着现实世界的分割任务具有灵活性,相当有意义。 5⃣组合性强。SAM有望在许多需要在任何图像中找到和分割任何对象的领域中发挥作用。SAM还可以成为更广泛的多模态世界理解系统的组件。 Meta 团队期望,像SAM这样的组合系统设计以及提示技术将启用比专门针对固定任务集训练的系统更广泛的应用范围。他们预见在像增强现实/虚拟现实、内容创作和科学领域等领域都能发挥重要作用。Segment Anything, 通用、开源! 更多实际场景案例,以及可互动的Demo,并可亲自测试。推荐访问: Invalid media:

封面图片

【Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻】「对于 Meta 的这项研究,我认为是计算机视觉领域的 GPT-

【Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻】「对于 Meta 的这项研究,我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念,即使对于未知对象、不熟悉的场景(例如水下图像)和模棱两可的情况下也能进行很好的图像分割。最重要的是,模型和数据都是开源的。」 #抽屉IT

封面图片

Meta AI 发布 SAM 图像物体分离模型,可以一键分离图和视频中的所有的东西,不管是人还是动物还是其他物体。

Meta AI 发布 SAM 图像物体分离模型,可以一键分离图和视频中的所有的东西,不管是人还是动物还是其他物体。 Meta AI: Today we're releasing the Segment Anything Model (SAM) a step toward the first foundation model for image segmentation. SAM is capable of one-click segmentation of any object from any photo or video + zero-shot transfer to other segmentation tasks

封面图片

Meta 开源计算机视觉基础模型 DINOv2

Meta 开源计算机视觉基础模型 DINOv2 Meta 开源了它的计算机视觉基础模型 DINOv2,源代码托管在上,和 Meta 近期开源的其它 AI 模型一样,采用的是非商用的 CC-BY-NC 4.0 许可证。DINOv2 是基于 Vision Transformer (ViT)架构,使用一个包含 1.42 亿幅图像的精选数据集进行预训练,可用于图像分类、视频动作识别、语义分割和深度估计等任务。Meta 称 DINOv2 模型的速度是旧方法的两倍,使用的内存只有旧方法的三分之一。测试显示它相比其它同类模型有显著改进。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Meta最新的开源项目DINOv2:具有自我监督学习功能的最先进的计算机视觉模型

Meta最新的开源项目DINOv2:具有自我监督学习功能的最先进的计算机视觉模型 这款全新的自监督视觉Transformer模型可以作为几乎所有计算机视觉任务的主干模型。无需微调。 • 无需大量标注数据,即可训练计算机视觉模型。 • 多功能主干:图像分类、分割、图像检索和深度估计。 • 直接从图像中学习特征,而无需依赖文本描述,这有助于更好地理解局部信息。 • 可以从任何图像集合中学习。 • DINOv2 的预训练版本已经上线,并在众多任务中与 CLIP 和 OpenCLIP 竞争。 Meta继SAM(Segment Anything) 网页链接 之后又一计算机视觉领域的重量级开源项目。 |||

封面图片

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称,Qwen-VL 基于 Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL 均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源 LVLM使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人