Meta最新的开源项目DINOv2：具有自我监督学习功能的最先进的计算机视觉模型

Meta最新的开源项目DINOv2：具有自我监督学习功能的最先进的计算机视觉模型这款全新的自监督视觉Transformer模型可以作为几乎所有计算机视觉任务的主干模型。无需微调。•无需大量标注数据，即可训练计算机视觉模型。•多功能主干：图像分类、分割、图像检索和深度估计。•直接从图像中学习特征，而无需依赖文本描述，这有助于更好地理解局部信息。•可以从任何图像集合中学习。•DINOv2的预训练版本已经上线，并在众多任务中与CLIP和OpenCLIP竞争。Meta继SAM（SegmentAnything）网页链接之后又一计算机视觉领域的重量级开源项目。

在Telegram中查看

相关推荐

Meta 开源计算机视觉基础模型 DINOv2

Meta开源计算机视觉基础模型DINOv2Meta开源了它的计算机视觉基础模型DINOv2，源代码托管在上，和Meta近期开源的其它AI模型一样，采用的是非商用的CC-BY-NC4.0许可证。DINOv2是基于VisionTransformer(ViT)架构，使用一个包含1.42亿幅图像的精选数据集进行预训练，可用于图像分类、视频动作识别、语义分割和深度估计等任务。Meta称DINOv2模型的速度是旧方法的两倍，使用的内存只有旧方法的三分之一。测试显示它相比其它同类模型有显著改进。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

计算机视觉最佳实践、代码示例和相关文档

计算机视觉最佳实践、代码示例和相关文档该存储库提供了用于构建计算机视觉系统的示例和最佳实践指南。该存储库的目标是构建一套全面的工具和示例，以利用计算机视觉算法、神经架构和操作此类系统的最新进展。我们不是从头开始创建实现，而是从现有的最先进的库中汲取灵感，并围绕加载图像数据、优化和评估模型以及扩展到云端构建额外的实用程序。这些示例和实用程序希望通过将从定义业务问题到开发解决方案的经验简化几个数量级，从而显着缩短“上市时间”。此外，示例笔记本将用作指南，并以多种语言展示工具的最佳实践和使用情况。示例以和的形式提供。所有示例都使用PyTorch作为底层深度学习库。#计算机视觉

斯坦福《CS231A计算机视觉：从3D重建到识别》课程资料

斯坦福《CS231A计算机视觉：从3D重建到识别》课程资料介绍计算机视觉中的概念和应用，主要涉及几何和3D理解。主题包括：相机和投影模型，低级图像处理方法，如滤波和边缘检测;中级视觉主题，如分割和聚类;从立体进行形状重建;高级视觉主题，例如学习的低级视觉表示;深度估计和光学/场景流;6D姿势估计和对象跟踪。先决条件：线性代数，基本概率和统计。#计算机视觉

MIT的人工智能模型加快了自动驾驶汽车的高分辨率计算机视觉速度

MIT的人工智能模型加快了自动驾驶汽车的高分辨率计算机视觉速度自动驾驶汽车必须快速、准确地识别所遇到的物体，从停在街角的空转送货车到呼啸驶向十字路口的骑车人。用于高分辨率计算机视觉的机器学习模型可以在边缘设备上实现计算密集型视觉应用，如自动驾驶或医疗图像分割。图为艺术家对自动驾驶技术的诠释。图片来源：麻省理工学院新闻为此，自动驾驶汽车可能会使用强大的计算机视觉模型，对场景高分辨率图像中的每个像素进行分类，这样就不会忽略低质量图像中可能被遮挡的物体。但是，这项被称为语义分割的任务非常复杂，在图像分辨率较高的情况下需要进行大量计算。来自麻省理工学院、麻省理工学院-IBM沃森人工智能实验室和其他机构的研究人员开发出了一种更高效的计算机视觉模型，大大降低了这项任务的计算复杂度。他们的模型可以在硬件资源有限的设备上实时准确地执行语义分割，例如可以让自动驾驶汽车做出瞬间决策的车载计算机。优化实时处理近期最先进的语义分割模型直接学习图像中每对像素之间的相互作用，因此它们的计算量会随着图像分辨率的提高而呈四倍增长。正因为如此，这些模型虽然准确，但速度太慢，无法在传感器或移动电话等边缘设备上实时处理高分辨率图像。麻省理工学院的研究人员为语义分割模型设计了一种新的构建模块，它能实现与这些最先进模型相同的能力，但计算复杂度仅为线性，而且操作具有硬件效率。由此产生了一个用于高分辨率计算机视觉的新模型系列，当部署在移动设备上时，其执行速度比以前的模型快达九倍。重要的是，这一新的模型系列显示出与这些替代模型相同或更高的精度。EfficientViT可使自动驾驶汽车高效地执行语义分割，这是一项高分辨率计算机视觉任务，涉及对场景中的每个像素进行分类，以便汽车能够准确识别物体。图为演示视频中的一张照片，显示了用于物体分类的不同颜色。图片由研究人员提供近距离观察解决方案这项技术不仅能帮助自动驾驶汽车实时做出决策，还能提高其他高分辨率计算机视觉任务的效率，例如医学图像分割。"虽然研究人员使用传统的视觉变换器已经有很长一段时间了，而且它们也取得了令人惊叹的成果，但我们希望人们也能关注这些模型的效率方面。我们的工作表明，大幅减少计算量是有可能的，这样就可以在设备本地进行实时图像分割。"电子工程与计算机科学系（EECS）副教授、麻省理工学院-IBM沃森人工智能实验室（MIT-IBMWatsonAILab）成员、描述新模型的论文的资深作者韩松（音译）说。与他一起撰写论文的还有论文的第一作者、电子工程与计算机科学系研究生蔡涵、浙江大学本科生李俊彦、清华大学本科生胡慕妍以及麻省理工学院-IBM沃森人工智能实验室的主要研究人员甘创。这项研究将在计算机视觉国际会议上发表。简化的解决方案对机器学习模型来说，对可能有数百万像素的高分辨率图像中的每个像素进行分类是一项艰巨的任务。最近，一种被称为视觉转换器的强大新型模型得到了有效应用。变换器最初是为自然语言处理而开发的。在这种情况下，它们将句子中的每个单词编码为一个标记，然后生成一个注意力图谱，该图谱捕捉每个标记与所有其他标记之间的关系。当模型进行预测时，该注意力图有助于理解上下文。使用相同的概念，视觉转换器会将图像分割成像素片，并将每个小片编码为一个标记，然后生成注意力图。在生成这张注意力图时，模型会使用一个相似度函数，直接学习每对像素之间的相互作用。这样，该模型就形成了所谓的全局感受野，这意味着它可以访问图像的所有相关部分。由于高分辨率图像可能包含数百万像素，并分成数千个片段，因此注意力图谱很快就会变得非常庞大。因此，随着图像分辨率的提高，计算量也会呈四倍增长。在名为EfficientViT的新模型系列中，麻省理工学院的研究人员采用了一种更简单的机制来构建注意力图谱--用线性相似函数取代非线性相似函数。因此，他们可以重新安排运算顺序，在不改变功能和丢失全局感受野的情况下减少总计算量。在他们的模型中，预测所需的计算量随着图像分辨率的提高而线性增长。"但天下没有免费的午餐。线性注意力只能捕捉到图像的全局背景，会丢失局部信息，从而使准确性变差，"Han说。为了弥补精度损失，研究人员在模型中加入了两个额外的元素，每个元素只增加少量计算量。其中一个组件可以帮助模型捕捉局部特征的相互作用，减轻线性函数在局部信息提取方面的弱点。第二个元素是实现多尺度学习的模块，帮助模型识别大型和小型物体。蔡涵说："这里最关键的部分是，我们需要仔细平衡性能和效率。"他们设计的EfficientViT采用了硬件友好型架构，因此更容易在不同类型的设备上运行，如VR头显或自动驾驶汽车的边缘计算机。他们的模型还可以应用于其他计算机视觉任务，如图像分类。简化语义分割当他们在用于语义分割的数据集上测试他们的模型时，他们发现该模型在NVIDIA图形处理器（GPU）上的运行速度比其他流行的视觉变换器模型快9倍，而且准确率相同或更高。韩松说："现在，我们可以两全其美，降低运算速度，使其足以在移动和云设备上运行。"在这些成果的基础上，研究人员希望将这项技术应用于加速生成式机器学习模型，例如用于生成新图像的模型。他们还希望继续扩大EfficientViT在其他视觉任务中的应用。AMD公司人工智能算法高级总监LuTian说："韩松教授团队首创的高效变换器模型现已成为检测和分割等各种计算机视觉任务中尖端技术的支柱。他们的研究不仅展示了变换器的效率和能力，还揭示了其在现实世界应用中的巨大潜力，例如提高视频游戏中的图像质量。""模型压缩和轻量级模型设计是实现高效人工智能计算的关键研究课题，尤其是在大型基础模型方面。韩松教授的研究小组在压缩和加速现代深度学习模型，特别是视觉变换器方面取得了显著进展。"甲骨文公司人工智能和机器学习全球副总裁杰伊-杰克逊（JayJackson）补充说，他没有参与这项研究。"甲骨文云计算基础架构一直在支持他的团队推进这项具有影响力的研究，以实现高效、绿色的人工智能。"...PC版：https://www.cnbeta.com.tw/articles/soft/1383321.htm手机版：https://m.cnbeta.com.tw/view/1383321.htm

计算机视觉-Opencv项目实战(Python版)

名称：计算机视觉-Opencv项目实战(Python版)描述：学习计算机视觉需要的基础知识点，结合Opencv进行项目实战。链接：https://www.aliyundrive.com/s/E87KCGvqFJL大小：未统计标签：#知识#学习来自：雷锋版权：频道：@shareAliyun群组：@aliyundriveShare投稿：@aliyun_share_bot

【51CTO-16729】计算机视觉-Opencv项目实战(Python版)

名称：【51CTO-16729】计算机视觉-Opencv项目实战(Python版)描述：学习计算机视觉需要的基础知识点，结合Opencv进行项目实战链接：https://www.aliyundrive.com/s/E87KCGvqFJL大小：未知标签：#学习#知识#_51CTO_16729_计算机视觉_Opencv项目实战_Python版来自：雷锋频道：@shareAliyun群组：@aliyundriveShare投稿：@aliyun_share_bot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人