【Meta发布「分割一切」AI模型，CV或迎来GPT-3时刻】「对于Meta的这项研究，我认为是计算机视觉领域的GPT-3时刻之

Meta新模型“分割一切”：抠图完成究极进化计算机视觉迎来GPT-3时刻

Meta新模型“分割一切”：抠图完成究极进化计算机视觉迎来GPT-3时刻当最近巨头们正在AIGC领域上激战之时，Meta默默的在人工智能的另一个重要分支搞起了大动作——计算机视觉。本周三，Meta研究部门发布了一篇名为其“SegmentAnything（分割一切）”的论文，文中介绍了一个全新的SegmentAnythingModel（即SAM），可以用于识别图像和视频中的物体，甚至是人工智能从未被训练过的物品。所谓的“分割”，用最通俗的话来说就是抠图。但Meta此次所展示的人工智能抠图能力，可能远比你想象的要更加强大，甚至在人工智能领域被认为是计算机视觉的“GPT-3时刻”。01.图片、视频一键识别，哪里喜欢点哪里虽然智能抠图这件事并不算是个新鲜事物，但如果你尝试过用P图软件来抠图换背景，就会发现想把照片抠得快、抠得准、抠得自然其实是一件费时又费力的事。从技术的角度来说，数字图像的“抠图”一直就是计算机视觉领域的一项经典且复杂的任务，其中关键的难点在于识别的时间和精准度。而Meta此次发布的SAM可以说给出了近乎完美的解决方案。对于任何一张照片，Meta都可以快速识别照片中的所有物体，并智能地将其分割成不同的形状和板块。你可以点击图中的任意物品进行单独处理。此次SAM的一大突破还在于即使是在训练过程中从未遇到过的物品和形状，人工智能也能将其准确识别并分割出来。而除了简单的识别图片中的物品之外，此次SAM还支持用户使用各种交互性的方式来分离出想要的物体。比如你可以通过将鼠标悬浮在该物体之上，就能自动定位出物体的轮廓。即使是颜色非常相近或者有连人眼都很难快速分辨出的倒影的图片之中，SAM都能非常准确的找出轮廓边线。再比如，你也可以直接通过输入文字查询，AI就可以帮你找到并标记出这个图片中的你想找的这个文字对象。不仅仅是静态图片，对于视频中的物体，SAM也能准确识别并且还能快速标记出物品的种类、名字、大小，并自动用ID给这些物品进行记录和分类。Meta表示未来这一技术会跟AR/AR头显进行广泛结合。这听上去是不是确实有点钢铁侠头盔的味道了？看到这里是不是已经觉得很厉害了？别着急，Meta这次还有大招。除了能把物品从图像中精准地分离出来，SAM还能支持对这个物品的编辑。也就是说，你可以把这个衣服从这个模特身上换下来，或许再换个颜色改个大小，放在另一模特身上。你也可以把你从静态图片中“抠”出来的椅子，进行3D渲染和编辑，让它从一个图片立刻动起来，接着你还可以改变形状或者进行更多的创意操作。02.计算机视觉领域的GPT-3时刻，打开更大应用想象空间Meta发布了SAM之后，立刻吸引了大量关注，甚至在很多人工智能业内人士的眼中，SAM的出现可以说是计算机视觉领域的GPT-3时刻。英伟达人工智能科学家JimFan表示此次SAM最大的一点突破是它已经基本能够理解“物品”的一般概念，即使对于未知对象、不熟悉的场景（例如水下和显微镜里的细胞）它都能比较准确的理解。因此他表示相信SAM的出现会是在计算机视觉领域里的GPT-3时刻。不仅是Jim有这样的观点，一些AI研究专家甚至也表示，SAM之于计算机视觉，就像是GPT之于大语言模型。而就在SAM昨天发布之后，很多人也在第一时间上手进行了实测。硅星人浏览了一圈，发现不仅基本满屏都是惊叹，一些网友还结合自身的工作领域打开了SAM更广的应用想象空间。有人将包含了众多复杂元素的图片上传之后，SAM识别起来毫无压力，无论是近景还是远景，大量的复杂细微的元素都可以基本准确找出。有自然科学研究者将SAM和卫星图像结合在了一起，表示SAM能够很好的识别和找到他标记的风貌类型。有神经外科影像学的专家将SAM用到了一个脊髓血管病的病例文件之中，认为SAM在帮助判断和分析病情上有很大帮助。有生物学家输入了一张显微镜下的组织图片，即使图中形状特征毫无规律，但凭借着Zero-shot技术，SAM也能够自动识别多细胞结构中的腺体、导管、动脉等。该生物学家认为SAM的产出结果已经非常接近完美，未来能够节省大量手动注释的时间。还有有骑行爱好者将地图和SAM结合起来，认为能够帮助自己未来更快更高效地给地图做标记。03.基于1100万张照片训练，模型和数据全部开源总体来看，跟过去的一些计算机视觉模型相比，SAM在几个方面有着显著的提升和不同。首先，SAM开创性地跟Prompt结合了起来。它可以接受各种输入提示，例如点击、框选或指定想要分割的对象，这种输入并不是一次性指令，你可以不停地对图像下达不同的指令达到最终的编辑效果，这也意味着此前在自然语言处理的Prompt模式也开始被应用在了计算机视觉领域。此外，SAM基于1100万张图像和11亿个掩码的海量数据集上进行训练，这是迄今为止最大的分割数据集。该数据集涵盖了广泛的对象和类别，例如动物、植物、车辆、家具、食物等，这些图像的分辨率达到了1500×2250pixels，平均每张图像约有100个掩码。此次SAM采用了轻量级掩码解码器，可以在每次提示仅几毫秒内在网络浏览器中运行。SAM在各种分割任务上具有很强的零样本性能。零样本意味着SAM可以在不对特定任务或领域进行任何额外训练或微调的情况下分割对象。例如，SAM可以在没有任何先验知识或监督的情况下分割人脸、手、头发、衣服和配饰。SAM还可以以不同的方式分割对象，例如红外图像或深度图等。SAM的训练数据集是OpenImageV5的6倍Meta表示，目前公司内部已经开始使用SAM相关技术，用于在Facbook、Instagram等社交平台上照片的标记、内容审核和内容推荐等。而之后，生成人工智能作为"创意辅助工具"也将被作为今年的重点优先事项被纳入到Meta更多的应用程序中。此次，可能最让很多业内人士惊喜的地方在于，无论是SAM模型还是巨大的训练数据集都是开源的！也就是说，目前任何人都可以在非商用许可下载和使用SAM及数据。Meta表示，此举是希望进一步加速整个行业对图像分割以及更通用图像与视频理解的研究。‘Meta也预计，随着SAM的演进和发展，该技术可能会成为未来AR/VR、内容创作、设计更多领域的强大的辅助工具。...PC版：https://www.cnbeta.com.tw/articles/soft/1353479.htm手机版：https://m.cnbeta.com.tw/view/1353479.htm

IBM计算机“基准”实验显示量子计算机将在两年内超越传统计算机

IBM计算机“基准”实验显示量子计算机将在两年内超越传统计算机这项新研究的成果发表在上周的《自然》杂志上。科学家们使用IBM量子计算机Eagle来模拟真实材料的磁性，处理速度比传统计算机更快。IBM量子计算机之所以能超越传统计算机，是因为其使用了一种特殊的误差缓解过程来补偿噪声带来的影响。而噪声正是量子计算机的一个基本弱点。基于硅芯片的传统计算机依赖于“比特（bit）”进行运算，但其只能取0或1这两个值。相比之下，量子计算机使用的量子比特可以同时呈现多种状态。量子比特依赖于量子叠加和量子纠缠等量子现象。理论上这使得量子比特的计算速度更快，而且可以真正实现并行计算。相比之下，传统计算机基于比特的计算速度很慢，而且需要按顺序依次进行。但从历史上看，量子计算机有一个致命的弱点：量子比特的量子态非常脆弱，来自外部环境的微小破坏也会永远扰乱它们的状态，从而干扰所携带的信息。这使得量子计算机非常容易出错或“出现噪声”。在这一新的原理验证实验中，127量子比特的Eagle超级计算机用建立在超导电路上的量子比特计算了二维固体的完整磁性状态。然后，研究人员仔细测量每个量子比特所产生的噪声。事实证明，诸如超级计算材料中的缺陷等因素可以可靠预测每个量子比特所产生的噪声。据报道，研究小组随后利用这些预测值来模拟生成没有噪音的结果。量子霸权的说法之前就出现过。2019年，谷歌的科学家们声称，公司开发的量子计算机Sycamore在200秒内解决了一个普通计算机需要1万年才能破解的问题。但谷歌量子计算机所解决的问题本质上就是生成一长串随机数，然后检查它们的准确性，并没有什么实际用途。相比之下，用IBM量子计算机完成的新实验是一个高度简化但有真实应用价值的物理问题。2019年谷歌量子霸权研究成果参与者之一、加州大学圣巴巴拉分校物理学家约翰·马丁尼斯(JohnMartinis)表示，“这能让人们乐观认为，它将在其他系统和更复杂的算法中发挥作用。”（辰辰）...PC版：https://www.cnbeta.com.tw/articles/soft/1366285.htm手机版：https://m.cnbeta.com.tw/view/1366285.htm

康奈尔大学《计算机视觉导论》课程#计算机视觉

面向计算机视觉的Transformer：架构、技巧与提升#计算机视觉

新加坡国立大学《3D计算机视觉》课程#计算机视觉

计算机相关语言

名称：计算机相关语言描述：59类语言书籍合集：自然语言汇编语言正则表达式数据库图形数据库scalareactZookeeperXMLWeChatWPFWEBVueVBASwifiSpringServletScratchScalaSQLSQLServerSQLPostgreSQLSQLNoSQLSQLMySQLSQLRustRedisRPythonPerlPascalPHPOCamlNodejsMybatisMongoDBMinecraftMatlabJavaIOSHTML5HTMLErlangDjangoLuaLabviewKotlinJqueryJavaScriptDOSCSSC＋＋C#CBootstrapAngularJSAndroidAjaxASPnet链接：https://www.aliyundrive.com/s/4KJFYkgWnjH大小：未统计标签：#自然语言#汇编语言#正则表达式#数据库#图形数据库来自：雷锋版权：频道：@shareAliyun群组：@aliyundriveShare投稿：@aliyun_share_bot

相关推荐

Meta新模型“分割一切”：抠图完成究极进化 计算机视觉迎来GPT-3时刻

IBM计算机“基准”实验显示量子计算机将在两年内超越传统计算机

康奈尔大学《计算机视觉导论》课程#计算机视觉

面向计算机视觉的Transformer：架构、技巧与提升#计算机视觉

新加坡国立大学《3D计算机视觉》课程#计算机视觉

计算机相关语言

Meta新模型“分割一切”：抠图完成究极进化计算机视觉迎来GPT-3时刻