Meta 开源计算机视觉基础模型 DINOv2

Meta开源计算机视觉基础模型DINOv2Meta开源了它的计算机视觉基础模型DINOv2,源代码托管在上,和Meta近期开源的其它AI模型一样,采用的是非商用的CC-BY-NC4.0许可证。DINOv2是基于VisionTransformer(ViT)架构,使用一个包含1.42亿幅图像的精选数据集进行预训练,可用于图像分类、视频动作识别、语义分割和深度估计等任务。Meta称DINOv2模型的速度是旧方法的两倍,使用的内存只有旧方法的三分之一。测试显示它相比其它同类模型有显著改进。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

相关推荐

封面图片

Meta最新的开源项目DINOv2:具有自我监督学习功能的最先进的计算机视觉模型

Meta最新的开源项目DINOv2:具有自我监督学习功能的最先进的计算机视觉模型这款全新的自监督视觉Transformer模型可以作为几乎所有计算机视觉任务的主干模型。无需微调。•无需大量标注数据,即可训练计算机视觉模型。•多功能主干:图像分类、分割、图像检索和深度估计。•直接从图像中学习特征,而无需依赖文本描述,这有助于更好地理解局部信息。•可以从任何图像集合中学习。•DINOv2的预训练版本已经上线,并在众多任务中与CLIP和OpenCLIP竞争。Meta继SAM(SegmentAnything)网页链接之后又一计算机视觉领域的重量级开源项目。

封面图片

斯坦福《CS231A计算机视觉:从3D重建到识别》课程资料

斯坦福《CS231A计算机视觉:从3D重建到识别》课程资料介绍计算机视觉中的概念和应用,主要涉及几何和3D理解。主题包括:相机和投影模型,低级图像处理方法,如滤波和边缘检测;中级视觉主题,如分割和聚类;从立体进行形状重建;高级视觉主题,例如学习的低级视觉表示;深度估计和光学/场景流;6D姿势估计和对象跟踪。先决条件:线性代数,基本概率和统计。#计算机视觉

封面图片

【深蓝学院】计算机视觉应用基础

名称:【深蓝学院】计算机视觉应用基础描述:溯本清源,把握问题的本质,理解经典方法的思想精髓,举一反三。链接:https://www.aliyundrive.com/s/5JMmoMsHFy8大小:未统计标签:#学习#知识来自:雷锋版权:频道:@shareAliyun群组:@aliyundriveShare投稿:@aliyun_share_bot

封面图片

Meta新模型“分割一切”:抠图完成究极进化 计算机视觉迎来GPT-3时刻

Meta新模型“分割一切”:抠图完成究极进化计算机视觉迎来GPT-3时刻当最近巨头们正在AIGC领域上激战之时,Meta默默的在人工智能的另一个重要分支搞起了大动作——计算机视觉。本周三,Meta研究部门发布了一篇名为其“SegmentAnything(分割一切)”的论文,文中介绍了一个全新的SegmentAnythingModel(即SAM),可以用于识别图像和视频中的物体,甚至是人工智能从未被训练过的物品。所谓的“分割”,用最通俗的话来说就是抠图。但Meta此次所展示的人工智能抠图能力,可能远比你想象的要更加强大,甚至在人工智能领域被认为是计算机视觉的“GPT-3时刻”。01.图片、视频一键识别,哪里喜欢点哪里虽然智能抠图这件事并不算是个新鲜事物,但如果你尝试过用P图软件来抠图换背景,就会发现想把照片抠得快、抠得准、抠得自然其实是一件费时又费力的事。从技术的角度来说,数字图像的“抠图”一直就是计算机视觉领域的一项经典且复杂的任务,其中关键的难点在于识别的时间和精准度。而Meta此次发布的SAM可以说给出了近乎完美的解决方案。对于任何一张照片,Meta都可以快速识别照片中的所有物体,并智能地将其分割成不同的形状和板块。你可以点击图中的任意物品进行单独处理。此次SAM的一大突破还在于即使是在训练过程中从未遇到过的物品和形状,人工智能也能将其准确识别并分割出来。而除了简单的识别图片中的物品之外,此次SAM还支持用户使用各种交互性的方式来分离出想要的物体。比如你可以通过将鼠标悬浮在该物体之上,就能自动定位出物体的轮廓。即使是颜色非常相近或者有连人眼都很难快速分辨出的倒影的图片之中,SAM都能非常准确的找出轮廓边线。再比如,你也可以直接通过输入文字查询,AI就可以帮你找到并标记出这个图片中的你想找的这个文字对象。不仅仅是静态图片,对于视频中的物体,SAM也能准确识别并且还能快速标记出物品的种类、名字、大小,并自动用ID给这些物品进行记录和分类。Meta表示未来这一技术会跟AR/AR头显进行广泛结合。这听上去是不是确实有点钢铁侠头盔的味道了?看到这里是不是已经觉得很厉害了?别着急,Meta这次还有大招。除了能把物品从图像中精准地分离出来,SAM还能支持对这个物品的编辑。也就是说,你可以把这个衣服从这个模特身上换下来,或许再换个颜色改个大小,放在另一模特身上。你也可以把你从静态图片中“抠”出来的椅子,进行3D渲染和编辑,让它从一个图片立刻动起来,接着你还可以改变形状或者进行更多的创意操作。02.计算机视觉领域的GPT-3时刻,打开更大应用想象空间Meta发布了SAM之后,立刻吸引了大量关注,甚至在很多人工智能业内人士的眼中,SAM的出现可以说是计算机视觉领域的GPT-3时刻。英伟达人工智能科学家JimFan表示此次SAM最大的一点突破是它已经基本能够理解“物品”的一般概念,即使对于未知对象、不熟悉的场景(例如水下和显微镜里的细胞)它都能比较准确的理解。因此他表示相信SAM的出现会是在计算机视觉领域里的GPT-3时刻。不仅是Jim有这样的观点,一些AI研究专家甚至也表示,SAM之于计算机视觉,就像是GPT之于大语言模型。而就在SAM昨天发布之后,很多人也在第一时间上手进行了实测。硅星人浏览了一圈,发现不仅基本满屏都是惊叹,一些网友还结合自身的工作领域打开了SAM更广的应用想象空间。有人将包含了众多复杂元素的图片上传之后,SAM识别起来毫无压力,无论是近景还是远景,大量的复杂细微的元素都可以基本准确找出。有自然科学研究者将SAM和卫星图像结合在了一起,表示SAM能够很好的识别和找到他标记的风貌类型。有神经外科影像学的专家将SAM用到了一个脊髓血管病的病例文件之中,认为SAM在帮助判断和分析病情上有很大帮助。有生物学家输入了一张显微镜下的组织图片,即使图中形状特征毫无规律,但凭借着Zero-shot技术,SAM也能够自动识别多细胞结构中的腺体、导管、动脉等。该生物学家认为SAM的产出结果已经非常接近完美,未来能够节省大量手动注释的时间。还有有骑行爱好者将地图和SAM结合起来,认为能够帮助自己未来更快更高效地给地图做标记。03.基于1100万张照片训练,模型和数据全部开源总体来看,跟过去的一些计算机视觉模型相比,SAM在几个方面有着显著的提升和不同。首先,SAM开创性地跟Prompt结合了起来。它可以接受各种输入提示,例如点击、框选或指定想要分割的对象,这种输入并不是一次性指令,你可以不停地对图像下达不同的指令达到最终的编辑效果,这也意味着此前在自然语言处理的Prompt模式也开始被应用在了计算机视觉领域。此外,SAM基于1100万张图像和11亿个掩码的海量数据集上进行训练,这是迄今为止最大的分割数据集。该数据集涵盖了广泛的对象和类别,例如动物、植物、车辆、家具、食物等,这些图像的分辨率达到了1500×2250pixels,平均每张图像约有100个掩码。此次SAM采用了轻量级掩码解码器,可以在每次提示仅几毫秒内在网络浏览器中运行。SAM在各种分割任务上具有很强的零样本性能。零样本意味着SAM可以在不对特定任务或领域进行任何额外训练或微调的情况下分割对象。例如,SAM可以在没有任何先验知识或监督的情况下分割人脸、手、头发、衣服和配饰。SAM还可以以不同的方式分割对象,例如红外图像或深度图等。SAM的训练数据集是OpenImageV5的6倍Meta表示,目前公司内部已经开始使用SAM相关技术,用于在Facbook、Instagram等社交平台上照片的标记、内容审核和内容推荐等。而之后,生成人工智能作为"创意辅助工具"也将被作为今年的重点优先事项被纳入到Meta更多的应用程序中。此次,可能最让很多业内人士惊喜的地方在于,无论是SAM模型还是巨大的训练数据集都是开源的!也就是说,目前任何人都可以在非商用许可下载和使用SAM及数据。Meta表示,此举是希望进一步加速整个行业对图像分割以及更通用图像与视频理解的研究。‘Meta也预计,随着SAM的演进和发展,该技术可能会成为未来AR/VR、内容创作、设计更多领域的强大的辅助工具。...PC版:https://www.cnbeta.com.tw/articles/soft/1353479.htm手机版:https://m.cnbeta.com.tw/view/1353479.htm

封面图片

计算机视觉应用基础 - 带源码课件

名称:计算机视觉应用基础-带源码课件描述:溯本清源,把握问题的本质,理解经典方法的思想精髓,举一反三。链接:https://www.alipan.com/s/5JMmoMsHFy8大小:NG标签:#学习#知识#课程#资源来自:雷锋版权:频道:@shareAliyun群组:@aliyundriveShare投稿:@aliyun_share_bot

封面图片

计算机视觉最佳实践、代码示例和相关文档

计算机视觉最佳实践、代码示例和相关文档该存储库提供了用于构建计算机视觉系统的示例和最佳实践指南。该存储库的目标是构建一套全面的工具和示例,以利用计算机视觉算法、神经架构和操作此类系统的最新进展。我们不是从头开始创建实现,而是从现有的最先进的库中汲取灵感,并围绕加载图像数据、优化和评估模型以及扩展到云端构建额外的实用程序。这些示例和实用程序希望通过将从定义业务问题到开发解决方案的经验简化几个数量级,从而显着缩短“上市时间”。此外,示例笔记本将用作指南,并以多种语言展示工具的最佳实践和使用情况。示例以和的形式提供。所有示例都使用PyTorch作为底层深度学习库。#计算机视觉

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人