Meta新模型“分割一切”：抠图完成究极进化计算机视觉迎来GPT-3时刻

Meta新模型“分割一切”：抠图完成究极进化计算机视觉迎来GPT-3时刻当最近巨头们正在AIGC领域上激战之时，Meta默默的在人工智能的另一个重要分支搞起了大动作——计算机视觉。本周三，Meta研究部门发布了一篇名为其“SegmentAnything（分割一切）”的论文，文中介绍了一个全新的SegmentAnythingModel（即SAM），可以用于识别图像和视频中的物体，甚至是人工智能从未被训练过的物品。所谓的“分割”，用最通俗的话来说就是抠图。但Meta此次所展示的人工智能抠图能力，可能远比你想象的要更加强大，甚至在人工智能领域被认为是计算机视觉的“GPT-3时刻”。01.图片、视频一键识别，哪里喜欢点哪里虽然智能抠图这件事并不算是个新鲜事物，但如果你尝试过用P图软件来抠图换背景，就会发现想把照片抠得快、抠得准、抠得自然其实是一件费时又费力的事。从技术的角度来说，数字图像的“抠图”一直就是计算机视觉领域的一项经典且复杂的任务，其中关键的难点在于识别的时间和精准度。而Meta此次发布的SAM可以说给出了近乎完美的解决方案。对于任何一张照片，Meta都可以快速识别照片中的所有物体，并智能地将其分割成不同的形状和板块。你可以点击图中的任意物品进行单独处理。此次SAM的一大突破还在于即使是在训练过程中从未遇到过的物品和形状，人工智能也能将其准确识别并分割出来。而除了简单的识别图片中的物品之外，此次SAM还支持用户使用各种交互性的方式来分离出想要的物体。比如你可以通过将鼠标悬浮在该物体之上，就能自动定位出物体的轮廓。即使是颜色非常相近或者有连人眼都很难快速分辨出的倒影的图片之中，SAM都能非常准确的找出轮廓边线。再比如，你也可以直接通过输入文字查询，AI就可以帮你找到并标记出这个图片中的你想找的这个文字对象。不仅仅是静态图片，对于视频中的物体，SAM也能准确识别并且还能快速标记出物品的种类、名字、大小，并自动用ID给这些物品进行记录和分类。Meta表示未来这一技术会跟AR/AR头显进行广泛结合。这听上去是不是确实有点钢铁侠头盔的味道了？看到这里是不是已经觉得很厉害了？别着急，Meta这次还有大招。除了能把物品从图像中精准地分离出来，SAM还能支持对这个物品的编辑。也就是说，你可以把这个衣服从这个模特身上换下来，或许再换个颜色改个大小，放在另一模特身上。你也可以把你从静态图片中“抠”出来的椅子，进行3D渲染和编辑，让它从一个图片立刻动起来，接着你还可以改变形状或者进行更多的创意操作。02.计算机视觉领域的GPT-3时刻，打开更大应用想象空间Meta发布了SAM之后，立刻吸引了大量关注，甚至在很多人工智能业内人士的眼中，SAM的出现可以说是计算机视觉领域的GPT-3时刻。英伟达人工智能科学家JimFan表示此次SAM最大的一点突破是它已经基本能够理解“物品”的一般概念，即使对于未知对象、不熟悉的场景（例如水下和显微镜里的细胞）它都能比较准确的理解。因此他表示相信SAM的出现会是在计算机视觉领域里的GPT-3时刻。不仅是Jim有这样的观点，一些AI研究专家甚至也表示，SAM之于计算机视觉，就像是GPT之于大语言模型。而就在SAM昨天发布之后，很多人也在第一时间上手进行了实测。硅星人浏览了一圈，发现不仅基本满屏都是惊叹，一些网友还结合自身的工作领域打开了SAM更广的应用想象空间。有人将包含了众多复杂元素的图片上传之后，SAM识别起来毫无压力，无论是近景还是远景，大量的复杂细微的元素都可以基本准确找出。有自然科学研究者将SAM和卫星图像结合在了一起，表示SAM能够很好的识别和找到他标记的风貌类型。有神经外科影像学的专家将SAM用到了一个脊髓血管病的病例文件之中，认为SAM在帮助判断和分析病情上有很大帮助。有生物学家输入了一张显微镜下的组织图片，即使图中形状特征毫无规律，但凭借着Zero-shot技术，SAM也能够自动识别多细胞结构中的腺体、导管、动脉等。该生物学家认为SAM的产出结果已经非常接近完美，未来能够节省大量手动注释的时间。还有有骑行爱好者将地图和SAM结合起来，认为能够帮助自己未来更快更高效地给地图做标记。03.基于1100万张照片训练，模型和数据全部开源总体来看，跟过去的一些计算机视觉模型相比，SAM在几个方面有着显著的提升和不同。首先，SAM开创性地跟Prompt结合了起来。它可以接受各种输入提示，例如点击、框选或指定想要分割的对象，这种输入并不是一次性指令，你可以不停地对图像下达不同的指令达到最终的编辑效果，这也意味着此前在自然语言处理的Prompt模式也开始被应用在了计算机视觉领域。此外，SAM基于1100万张图像和11亿个掩码的海量数据集上进行训练，这是迄今为止最大的分割数据集。该数据集涵盖了广泛的对象和类别，例如动物、植物、车辆、家具、食物等，这些图像的分辨率达到了1500×2250pixels，平均每张图像约有100个掩码。此次SAM采用了轻量级掩码解码器，可以在每次提示仅几毫秒内在网络浏览器中运行。SAM在各种分割任务上具有很强的零样本性能。零样本意味着SAM可以在不对特定任务或领域进行任何额外训练或微调的情况下分割对象。例如，SAM可以在没有任何先验知识或监督的情况下分割人脸、手、头发、衣服和配饰。SAM还可以以不同的方式分割对象，例如红外图像或深度图等。SAM的训练数据集是OpenImageV5的6倍Meta表示，目前公司内部已经开始使用SAM相关技术，用于在Facbook、Instagram等社交平台上照片的标记、内容审核和内容推荐等。而之后，生成人工智能作为"创意辅助工具"也将被作为今年的重点优先事项被纳入到Meta更多的应用程序中。此次，可能最让很多业内人士惊喜的地方在于，无论是SAM模型还是巨大的训练数据集都是开源的！也就是说，目前任何人都可以在非商用许可下载和使用SAM及数据。Meta表示，此举是希望进一步加速整个行业对图像分割以及更通用图像与视频理解的研究。‘Meta也预计，随着SAM的演进和发展，该技术可能会成为未来AR/VR、内容创作、设计更多领域的强大的辅助工具。...PC版：https://www.cnbeta.com.tw/articles/soft/1353479.htm手机版：https://m.cnbeta.com.tw/view/1353479.htm

在Telegram中查看

相关推荐

Meta最新的开源项目DINOv2：具有自我监督学习功能的最先进的计算机视觉模型

Meta最新的开源项目DINOv2：具有自我监督学习功能的最先进的计算机视觉模型这款全新的自监督视觉Transformer模型可以作为几乎所有计算机视觉任务的主干模型。无需微调。•无需大量标注数据，即可训练计算机视觉模型。•多功能主干：图像分类、分割、图像检索和深度估计。•直接从图像中学习特征，而无需依赖文本描述，这有助于更好地理解局部信息。•可以从任何图像集合中学习。•DINOv2的预训练版本已经上线，并在众多任务中与CLIP和OpenCLIP竞争。Meta继SAM（SegmentAnything）网页链接之后又一计算机视觉领域的重量级开源项目。

Meta 开源计算机视觉基础模型 DINOv2

Meta开源计算机视觉基础模型DINOv2Meta开源了它的计算机视觉基础模型DINOv2，源代码托管在上，和Meta近期开源的其它AI模型一样，采用的是非商用的CC-BY-NC4.0许可证。DINOv2是基于VisionTransformer(ViT)架构，使用一个包含1.42亿幅图像的精选数据集进行预训练，可用于图像分类、视频动作识别、语义分割和深度估计等任务。Meta称DINOv2模型的速度是旧方法的两倍，使用的内存只有旧方法的三分之一。测试显示它相比其它同类模型有显著改进。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

Meta 开源发布可分割识别任意图像中主体的 SAM 模型

Meta开源发布可分割识别任意图像中主体的SAM模型已经理解了对象是什么的一般概念，可以直接对没见过的图像进行分割任务(识别像素属于哪个对象)。Meta还同时开源发布了比任何现有分割数据集大400倍的SA-1B数据集。SAM可以成为庞大AI系统的一部分，用于对世界进行多模态理解，例如理解图像和文本。SAM可以在AR/VR中根据用户的视线选择对象，进行识别查询或者3D建模。SAM可以进行智能抠图或视频后期。SAM还可用于地球与太空的科学任务，对动物和物体进行定位，例如细胞显微镜，牧场的动物识别，天体运行跟踪。——频道：@TestFlightCN

斯坦福《CS231A计算机视觉：从3D重建到识别》课程资料

斯坦福《CS231A计算机视觉：从3D重建到识别》课程资料介绍计算机视觉中的概念和应用，主要涉及几何和3D理解。主题包括：相机和投影模型，低级图像处理方法，如滤波和边缘检测;中级视觉主题，如分割和聚类;从立体进行形状重建;高级视觉主题，例如学习的低级视觉表示;深度估计和光学/场景流;6D姿势估计和对象跟踪。先决条件：线性代数，基本概率和统计。#计算机视觉

MIT的人工智能模型加快了自动驾驶汽车的高分辨率计算机视觉速度

MIT的人工智能模型加快了自动驾驶汽车的高分辨率计算机视觉速度自动驾驶汽车必须快速、准确地识别所遇到的物体，从停在街角的空转送货车到呼啸驶向十字路口的骑车人。用于高分辨率计算机视觉的机器学习模型可以在边缘设备上实现计算密集型视觉应用，如自动驾驶或医疗图像分割。图为艺术家对自动驾驶技术的诠释。图片来源：麻省理工学院新闻为此，自动驾驶汽车可能会使用强大的计算机视觉模型，对场景高分辨率图像中的每个像素进行分类，这样就不会忽略低质量图像中可能被遮挡的物体。但是，这项被称为语义分割的任务非常复杂，在图像分辨率较高的情况下需要进行大量计算。来自麻省理工学院、麻省理工学院-IBM沃森人工智能实验室和其他机构的研究人员开发出了一种更高效的计算机视觉模型，大大降低了这项任务的计算复杂度。他们的模型可以在硬件资源有限的设备上实时准确地执行语义分割，例如可以让自动驾驶汽车做出瞬间决策的车载计算机。优化实时处理近期最先进的语义分割模型直接学习图像中每对像素之间的相互作用，因此它们的计算量会随着图像分辨率的提高而呈四倍增长。正因为如此，这些模型虽然准确，但速度太慢，无法在传感器或移动电话等边缘设备上实时处理高分辨率图像。麻省理工学院的研究人员为语义分割模型设计了一种新的构建模块，它能实现与这些最先进模型相同的能力，但计算复杂度仅为线性，而且操作具有硬件效率。由此产生了一个用于高分辨率计算机视觉的新模型系列，当部署在移动设备上时，其执行速度比以前的模型快达九倍。重要的是，这一新的模型系列显示出与这些替代模型相同或更高的精度。EfficientViT可使自动驾驶汽车高效地执行语义分割，这是一项高分辨率计算机视觉任务，涉及对场景中的每个像素进行分类，以便汽车能够准确识别物体。图为演示视频中的一张照片，显示了用于物体分类的不同颜色。图片由研究人员提供近距离观察解决方案这项技术不仅能帮助自动驾驶汽车实时做出决策，还能提高其他高分辨率计算机视觉任务的效率，例如医学图像分割。"虽然研究人员使用传统的视觉变换器已经有很长一段时间了，而且它们也取得了令人惊叹的成果，但我们希望人们也能关注这些模型的效率方面。我们的工作表明，大幅减少计算量是有可能的，这样就可以在设备本地进行实时图像分割。"电子工程与计算机科学系（EECS）副教授、麻省理工学院-IBM沃森人工智能实验室（MIT-IBMWatsonAILab）成员、描述新模型的论文的资深作者韩松（音译）说。与他一起撰写论文的还有论文的第一作者、电子工程与计算机科学系研究生蔡涵、浙江大学本科生李俊彦、清华大学本科生胡慕妍以及麻省理工学院-IBM沃森人工智能实验室的主要研究人员甘创。这项研究将在计算机视觉国际会议上发表。简化的解决方案对机器学习模型来说，对可能有数百万像素的高分辨率图像中的每个像素进行分类是一项艰巨的任务。最近，一种被称为视觉转换器的强大新型模型得到了有效应用。变换器最初是为自然语言处理而开发的。在这种情况下，它们将句子中的每个单词编码为一个标记，然后生成一个注意力图谱，该图谱捕捉每个标记与所有其他标记之间的关系。当模型进行预测时，该注意力图有助于理解上下文。使用相同的概念，视觉转换器会将图像分割成像素片，并将每个小片编码为一个标记，然后生成注意力图。在生成这张注意力图时，模型会使用一个相似度函数，直接学习每对像素之间的相互作用。这样，该模型就形成了所谓的全局感受野，这意味着它可以访问图像的所有相关部分。由于高分辨率图像可能包含数百万像素，并分成数千个片段，因此注意力图谱很快就会变得非常庞大。因此，随着图像分辨率的提高，计算量也会呈四倍增长。在名为EfficientViT的新模型系列中，麻省理工学院的研究人员采用了一种更简单的机制来构建注意力图谱--用线性相似函数取代非线性相似函数。因此，他们可以重新安排运算顺序，在不改变功能和丢失全局感受野的情况下减少总计算量。在他们的模型中，预测所需的计算量随着图像分辨率的提高而线性增长。"但天下没有免费的午餐。线性注意力只能捕捉到图像的全局背景，会丢失局部信息，从而使准确性变差，"Han说。为了弥补精度损失，研究人员在模型中加入了两个额外的元素，每个元素只增加少量计算量。其中一个组件可以帮助模型捕捉局部特征的相互作用，减轻线性函数在局部信息提取方面的弱点。第二个元素是实现多尺度学习的模块，帮助模型识别大型和小型物体。蔡涵说："这里最关键的部分是，我们需要仔细平衡性能和效率。"他们设计的EfficientViT采用了硬件友好型架构，因此更容易在不同类型的设备上运行，如VR头显或自动驾驶汽车的边缘计算机。他们的模型还可以应用于其他计算机视觉任务，如图像分类。简化语义分割当他们在用于语义分割的数据集上测试他们的模型时，他们发现该模型在NVIDIA图形处理器（GPU）上的运行速度比其他流行的视觉变换器模型快9倍，而且准确率相同或更高。韩松说："现在，我们可以两全其美，降低运算速度，使其足以在移动和云设备上运行。"在这些成果的基础上，研究人员希望将这项技术应用于加速生成式机器学习模型，例如用于生成新图像的模型。他们还希望继续扩大EfficientViT在其他视觉任务中的应用。AMD公司人工智能算法高级总监LuTian说："韩松教授团队首创的高效变换器模型现已成为检测和分割等各种计算机视觉任务中尖端技术的支柱。他们的研究不仅展示了变换器的效率和能力，还揭示了其在现实世界应用中的巨大潜力，例如提高视频游戏中的图像质量。""模型压缩和轻量级模型设计是实现高效人工智能计算的关键研究课题，尤其是在大型基础模型方面。韩松教授的研究小组在压缩和加速现代深度学习模型，特别是视觉变换器方面取得了显著进展。"甲骨文公司人工智能和机器学习全球副总裁杰伊-杰克逊（JayJackson）补充说，他没有参与这项研究。"甲骨文云计算基础架构一直在支持他的团队推进这项具有影响力的研究，以实现高效、绿色的人工智能。"...PC版：https://www.cnbeta.com.tw/articles/soft/1383321.htm手机版：https://m.cnbeta.com.tw/view/1383321.htm

【Meta发布「分割一切」AI模型，CV或迎来GPT-3时刻】「对于Meta的这项研究，我认为是计算机视觉领域的GPT-3时刻之

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人