Meta 开源发布可分割识别任意图像中主体的 SAM 模型

Meta开源发布可分割识别任意图像中主体的SAM模型已经理解了对象是什么的一般概念,可以直接对没见过的图像进行分割任务(识别像素属于哪个对象)。Meta还同时开源发布了比任何现有分割数据集大400倍的SA-1B数据集。SAM可以成为庞大AI系统的一部分,用于对世界进行多模态理解,例如理解图像和文本。SAM可以在AR/VR中根据用户的视线选择对象,进行识别查询或者3D建模。SAM可以进行智能抠图或视频后期。SAM还可用于地球与太空的科学任务,对动物和物体进行定位,例如细胞显微镜,牧场的动物识别,天体运行跟踪。——频道:@TestFlightCN

相关推荐

封面图片

Meta 新模型:SAM来了~惊人的通用性,图像内物件分割的超级利器!

Meta新模型:SAM来了~惊人的通用性,图像内物件分割的超级利器!MetaAI发布了最新的图像分割模型SegmentAnything(SAM),能够从任何照片或视频中一键分割任何对象+零样本转移到其他分割任务。这意味着它在商品识别(制作)、机器人视觉、医学图像诊断、自动驾驶、视频剪辑、增强现实等领域发挥重要作用。以下是它的主要特性:1⃣满足图像分割的通用需求。SAM是一个通用的、可提示的图像分割模型。它可以通过简单的交互(如点击、框选、文本等)来进行交互式分割和自动分割,表征其可控性。2⃣零样本学习能力。数据集包括超过11亿个分割masks,这些masks是在大约1100万张有执照和保护隐私的图像上收集的;Sam已经学会了关于物体是什么的通用概念——这种理解使得对不熟悉的物体和图像进行零距离的概括,而不需要额外训练。3⃣高效和速度。SAM能在50毫秒内根据任何提示实时生成一个分割,这代表其具有实时性的应用可能性。4⃣丰富的多样化场景。SAM生成多个有效的mask来处理模糊或不确定的情况。这意味着现实世界的分割任务具有灵活性,相当有意义。5⃣组合性强。SAM有望在许多需要在任何图像中找到和分割任何对象的领域中发挥作用。SAM还可以成为更广泛的多模态世界理解系统的组件。Meta团队期望,像SAM这样的组合系统设计以及提示技术将启用比专门针对固定任务集训练的系统更广泛的应用范围。他们预见在像增强现实/虚拟现实、内容创作和科学领域等领域都能发挥重要作用。SegmentAnything,通用、开源!更多实际场景案例,以及可互动的Demo,并可亲自测试。推荐访问:https://segment-anything.com/Invalidmedia:

封面图片

Meta新模型“分割一切”:抠图完成究极进化 计算机视觉迎来GPT-3时刻

Meta新模型“分割一切”:抠图完成究极进化计算机视觉迎来GPT-3时刻当最近巨头们正在AIGC领域上激战之时,Meta默默的在人工智能的另一个重要分支搞起了大动作——计算机视觉。本周三,Meta研究部门发布了一篇名为其“SegmentAnything(分割一切)”的论文,文中介绍了一个全新的SegmentAnythingModel(即SAM),可以用于识别图像和视频中的物体,甚至是人工智能从未被训练过的物品。所谓的“分割”,用最通俗的话来说就是抠图。但Meta此次所展示的人工智能抠图能力,可能远比你想象的要更加强大,甚至在人工智能领域被认为是计算机视觉的“GPT-3时刻”。01.图片、视频一键识别,哪里喜欢点哪里虽然智能抠图这件事并不算是个新鲜事物,但如果你尝试过用P图软件来抠图换背景,就会发现想把照片抠得快、抠得准、抠得自然其实是一件费时又费力的事。从技术的角度来说,数字图像的“抠图”一直就是计算机视觉领域的一项经典且复杂的任务,其中关键的难点在于识别的时间和精准度。而Meta此次发布的SAM可以说给出了近乎完美的解决方案。对于任何一张照片,Meta都可以快速识别照片中的所有物体,并智能地将其分割成不同的形状和板块。你可以点击图中的任意物品进行单独处理。此次SAM的一大突破还在于即使是在训练过程中从未遇到过的物品和形状,人工智能也能将其准确识别并分割出来。而除了简单的识别图片中的物品之外,此次SAM还支持用户使用各种交互性的方式来分离出想要的物体。比如你可以通过将鼠标悬浮在该物体之上,就能自动定位出物体的轮廓。即使是颜色非常相近或者有连人眼都很难快速分辨出的倒影的图片之中,SAM都能非常准确的找出轮廓边线。再比如,你也可以直接通过输入文字查询,AI就可以帮你找到并标记出这个图片中的你想找的这个文字对象。不仅仅是静态图片,对于视频中的物体,SAM也能准确识别并且还能快速标记出物品的种类、名字、大小,并自动用ID给这些物品进行记录和分类。Meta表示未来这一技术会跟AR/AR头显进行广泛结合。这听上去是不是确实有点钢铁侠头盔的味道了?看到这里是不是已经觉得很厉害了?别着急,Meta这次还有大招。除了能把物品从图像中精准地分离出来,SAM还能支持对这个物品的编辑。也就是说,你可以把这个衣服从这个模特身上换下来,或许再换个颜色改个大小,放在另一模特身上。你也可以把你从静态图片中“抠”出来的椅子,进行3D渲染和编辑,让它从一个图片立刻动起来,接着你还可以改变形状或者进行更多的创意操作。02.计算机视觉领域的GPT-3时刻,打开更大应用想象空间Meta发布了SAM之后,立刻吸引了大量关注,甚至在很多人工智能业内人士的眼中,SAM的出现可以说是计算机视觉领域的GPT-3时刻。英伟达人工智能科学家JimFan表示此次SAM最大的一点突破是它已经基本能够理解“物品”的一般概念,即使对于未知对象、不熟悉的场景(例如水下和显微镜里的细胞)它都能比较准确的理解。因此他表示相信SAM的出现会是在计算机视觉领域里的GPT-3时刻。不仅是Jim有这样的观点,一些AI研究专家甚至也表示,SAM之于计算机视觉,就像是GPT之于大语言模型。而就在SAM昨天发布之后,很多人也在第一时间上手进行了实测。硅星人浏览了一圈,发现不仅基本满屏都是惊叹,一些网友还结合自身的工作领域打开了SAM更广的应用想象空间。有人将包含了众多复杂元素的图片上传之后,SAM识别起来毫无压力,无论是近景还是远景,大量的复杂细微的元素都可以基本准确找出。有自然科学研究者将SAM和卫星图像结合在了一起,表示SAM能够很好的识别和找到他标记的风貌类型。有神经外科影像学的专家将SAM用到了一个脊髓血管病的病例文件之中,认为SAM在帮助判断和分析病情上有很大帮助。有生物学家输入了一张显微镜下的组织图片,即使图中形状特征毫无规律,但凭借着Zero-shot技术,SAM也能够自动识别多细胞结构中的腺体、导管、动脉等。该生物学家认为SAM的产出结果已经非常接近完美,未来能够节省大量手动注释的时间。还有有骑行爱好者将地图和SAM结合起来,认为能够帮助自己未来更快更高效地给地图做标记。03.基于1100万张照片训练,模型和数据全部开源总体来看,跟过去的一些计算机视觉模型相比,SAM在几个方面有着显著的提升和不同。首先,SAM开创性地跟Prompt结合了起来。它可以接受各种输入提示,例如点击、框选或指定想要分割的对象,这种输入并不是一次性指令,你可以不停地对图像下达不同的指令达到最终的编辑效果,这也意味着此前在自然语言处理的Prompt模式也开始被应用在了计算机视觉领域。此外,SAM基于1100万张图像和11亿个掩码的海量数据集上进行训练,这是迄今为止最大的分割数据集。该数据集涵盖了广泛的对象和类别,例如动物、植物、车辆、家具、食物等,这些图像的分辨率达到了1500×2250pixels,平均每张图像约有100个掩码。此次SAM采用了轻量级掩码解码器,可以在每次提示仅几毫秒内在网络浏览器中运行。SAM在各种分割任务上具有很强的零样本性能。零样本意味着SAM可以在不对特定任务或领域进行任何额外训练或微调的情况下分割对象。例如,SAM可以在没有任何先验知识或监督的情况下分割人脸、手、头发、衣服和配饰。SAM还可以以不同的方式分割对象,例如红外图像或深度图等。SAM的训练数据集是OpenImageV5的6倍Meta表示,目前公司内部已经开始使用SAM相关技术,用于在Facbook、Instagram等社交平台上照片的标记、内容审核和内容推荐等。而之后,生成人工智能作为"创意辅助工具"也将被作为今年的重点优先事项被纳入到Meta更多的应用程序中。此次,可能最让很多业内人士惊喜的地方在于,无论是SAM模型还是巨大的训练数据集都是开源的!也就是说,目前任何人都可以在非商用许可下载和使用SAM及数据。Meta表示,此举是希望进一步加速整个行业对图像分割以及更通用图像与视频理解的研究。‘Meta也预计,随着SAM的演进和发展,该技术可能会成为未来AR/VR、内容创作、设计更多领域的强大的辅助工具。...PC版:https://www.cnbeta.com.tw/articles/soft/1353479.htm手机版:https://m.cnbeta.com.tw/view/1353479.htm

封面图片

Meta的新人工智能可以识别图像中的物体

Meta的新人工智能可以识别图像中的物体它被作为一个项目推出,该项目不仅包括模型,还包括一个任务和数据集作为其研究论文的一部分。该模型本身被命名为SegmentAnythingModel(SAM),数据集被命名为SegmentAnything1-Billionmaskdataset(SA-1B),被Meta公司吹捧为有史以来最大的分割数据集,以实现一系列广泛的应用。该数据集将被用于研究目的,该模型在允许的开放许可(Apache2.0)下可用。Meta进一步说,SAM可以被用来为那些需要在众多领域的任何图像中寻找和分割任何物体的应用提供动力。该模型本身在未来也可以成为能力更强、范围更广的人工智能的一个组成部分,并可用于增强AR和VR应用,根据用户的视线选择物体。基于SAM的技术已经在Meta内部使用,特别是在Facebook和Instagram上,用户对照片进行标记,对禁止的内容进行审核,还为决定向用户展示哪些帖子的算法提供信息。Meta已经推出了一个模型的演示,任何人都可以用自己的图片来尝试,以了解人工智能的能力。...PC版:https://www.cnbeta.com.tw/articles/soft/1353239.htm手机版:https://m.cnbeta.com.tw/view/1353239.htm

封面图片

Meta最新的开源项目DINOv2:具有自我监督学习功能的最先进的计算机视觉模型

Meta最新的开源项目DINOv2:具有自我监督学习功能的最先进的计算机视觉模型这款全新的自监督视觉Transformer模型可以作为几乎所有计算机视觉任务的主干模型。无需微调。•无需大量标注数据,即可训练计算机视觉模型。•多功能主干:图像分类、分割、图像检索和深度估计。•直接从图像中学习特征,而无需依赖文本描述,这有助于更好地理解局部信息。•可以从任何图像集合中学习。•DINOv2的预训练版本已经上线,并在众多任务中与CLIP和OpenCLIP竞争。Meta继SAM(SegmentAnything)网页链接之后又一计算机视觉领域的重量级开源项目。

封面图片

Meta 开源计算机视觉基础模型 DINOv2

Meta开源计算机视觉基础模型DINOv2Meta开源了它的计算机视觉基础模型DINOv2,源代码托管在上,和Meta近期开源的其它AI模型一样,采用的是非商用的CC-BY-NC4.0许可证。DINOv2是基于VisionTransformer(ViT)架构,使用一个包含1.42亿幅图像的精选数据集进行预训练,可用于图像分类、视频动作识别、语义分割和深度估计等任务。Meta称DINOv2模型的速度是旧方法的两倍,使用的内存只有旧方法的三分之一。测试显示它相比其它同类模型有显著改进。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

Meta AI 发布 SAM 图像物体分离模型,可以一键分离图和视频中的所有的东西,不管是人还是动物还是其他物体。

MetaAI发布SAM图像物体分离模型,可以一键分离图和视频中的所有的东西,不管是人还是动物还是其他物体。MetaAI: Todaywe'rereleasingtheSegmentAnythingModel(SAM)—asteptowardthefirstfoundationmodelforimagesegmentation.SAMiscapableofone-clicksegmentationofanyobjectfromanyphotoorvideo+zero-shottransfertoothersegmentationtasks

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人