机器学习方案手册,一本包含逐步说明为各种任务训练深度学习模型的书。内容覆盖自然语言处理、计算机视觉、图像与文字

机器学习方案手册,一本包含逐步说明为各种任务训练深度学习模型的书。内容覆盖自然语言处理、计算机视觉、图像与文字 本书分为3个部分: 自然语言处理(NLP) 计算机视觉(CV) 图片和文字 以下是本节各章的简要概述: 命名实体识别- 讨论使用conllpp 数据集识别命名实体的训练转换器模型。我们将使用的特定模型称为bert-base-cased。该模型是原始 BERT 的较小版本,并且区分大小写,这意味着它将大写和小写字母视为不同。 掩蔽语言建模- 与填空问题类似,我们训练一个模型来使用xsum 数据集预测句子中的掩蔽词。我们将使用的特定模型称为distilbert-base-uncased。这是 bert base uncased 模型的精炼版本,它以相同的方式处理大写和小写字母。 机器翻译在本章中,训练一个模型将文本从英语翻译成西班牙语。我们将在新闻评论数据集上训练来自赫尔辛基 NLP 小组的变压器模型。 总结在本章中,训练了一个多语言模型来总结英语和西班牙语句子。使用的模型是 T5 Transformer 模型的多语言版本,使用的数据集是amazon reviews dataset。 因果语言建模- 本章重点介绍训练模型以自动完成 Python 代码。为此,我们将使用用于训练代码鹦鹉模型的数据。 计算机视觉部分涵盖了该领域下最常见的任务。本节中的章节使用pytorch 闪电、pytorch 图像模型(timm)、 albumentations库和权重和偏差平台。以下是本节各章的简要概述: 图像分类- 我们将训练卷积神经网络 (CNN) 模型对动物图像进行分类。我们将使用的 CNN 模型是“resnet34”,使用的数据集是动物图像数据集。 图像分割- 本章侧重于训练模型以分割给定图像中的道路。我们将使用 U-net 模型来完成此任务。 物体检测在本章中,我们将专注于检测图像中的汽车。我们将预测与图像中包围汽车的边界框相对应的坐标。对于这个任务,我们将使用 fast-rcnn 模型。 最后一节包含训练模型以在给定图像的情况下生成标题的章节。它将有一个视觉转换器作为编码器,gpt-2 模型作为解码器。 || #电子书 #机器学习 #手册

相关推荐

封面图片

EasyCV是一个涵盖多个领域的基于Pytorch的计算机视觉工具箱,聚焦自监督学习和视觉transformer关键技术,覆盖主

EasyCV是一个涵盖多个领域的基于Pytorch的计算机视觉工具箱,聚焦自监督学习和视觉transformer关键技术,覆盖主流的视觉建模任务例如图像分类,度量学习,目标检测,关键点检测等。 核心特性: SOTA 自监督算法 EasyCV提供了state-of-the-art的自监督算法,有基于对比学习的算法例如 SimCLR,MoCO V2,Swav, Moby,DINO,也有基于掩码图像建模的MAE算法,除此之外我们还提供了标准的benchmark工具用来进行自监督算法模型的效果评估。 视觉Transformers EasyCV聚焦视觉transformer技术,希望通过一种简洁的方式让用户方便地使用各种SOTA的、基于自监督预训练和imagenet预训练的视觉transformer模型,例如ViT,Swin-Transformer,Shuffle Transformer,未来也会加入更多相关模型。此外,我们还支持所有timm仓库中的预训练模型. 易用性和可扩展性 除了自监督学习,EasyCV还支持图像分类、目标检测,度量学习,关键点检测等领域,同时未来也会支持更多任务领域。 尽管横跨多个任务领域,EasyCV保持了统一的架构,整体框架划分为数据集、模型、回调模块,非常容易增加新的算法、功能,以及基于现有模块进行扩展。 推理方面,EasyCV提供了端到端的简单易用的推理接口,支持上述多个领域。 此外所有的模型都支持使用PAI-EAS进行在线部署,支持自动伸缩和服务监控。 高性能 EasyCV支持多机多卡训练,同时支持TorchAccelerator和fp16进行训练加速。在数据读取和预处理方面,EasyCV使用DALI进行加速。对于模型推理优化,EasyCV支持使用jit script导出模型,使用PAI-Blade进行模型优化。 | #计算机视觉 #工具

封面图片

Meta 开源计算机视觉基础模型 DINOv2

Meta 开源计算机视觉基础模型 DINOv2 Meta 开源了它的计算机视觉基础模型 DINOv2,源代码托管在上,和 Meta 近期开源的其它 AI 模型一样,采用的是非商用的 CC-BY-NC 4.0 许可证。DINOv2 是基于 Vision Transformer (ViT)架构,使用一个包含 1.42 亿幅图像的精选数据集进行预训练,可用于图像分类、视频动作识别、语义分割和深度估计等任务。Meta 称 DINOv2 模型的速度是旧方法的两倍,使用的内存只有旧方法的三分之一。测试显示它相比其它同类模型有显著改进。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Meta最新的开源项目DINOv2:具有自我监督学习功能的最先进的计算机视觉模型

Meta最新的开源项目DINOv2:具有自我监督学习功能的最先进的计算机视觉模型 这款全新的自监督视觉Transformer模型可以作为几乎所有计算机视觉任务的主干模型。无需微调。 • 无需大量标注数据,即可训练计算机视觉模型。 • 多功能主干:图像分类、分割、图像检索和深度估计。 • 直接从图像中学习特征,而无需依赖文本描述,这有助于更好地理解局部信息。 • 可以从任何图像集合中学习。 • DINOv2 的预训练版本已经上线,并在众多任务中与 CLIP 和 OpenCLIP 竞争。 Meta继SAM(Segment Anything) 网页链接 之后又一计算机视觉领域的重量级开源项目。 |||

封面图片

谷歌公布其训练 PaLM 模型的超级计算机细节

谷歌公布其训练 PaLM 模型的超级计算机细节 谷歌的 PaLM 模型是迄今为止其公开披露的最大的语言模型,谷歌通过将其分割到由 4,000 个芯片组成的两台超级计算机上,历时 50 天训练而成。此外,Midjourney 也使用该系统来训练其模型。谷歌称,对于同等规模的系统,采用这些芯片比基于英伟达 A100 芯片的系统快 1.7 倍,省电 1.9 倍。但谷歌没有与英伟达目前的旗舰产品 H100 芯片进行比较,因为 H100 是在谷歌的芯片之后上市的,而且是用更新的技术制造的。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

计算机视觉最佳实践、代码示例和相关文档

计算机视觉最佳实践、代码示例和相关文档 该存储库提供了用于构建计算机视觉系统的示例和最佳实践指南。该存储库的目标是构建一套全面的工具和示例,以利用计算机视觉算法、神经架构和操作此类系统的最新进展。我们不是从头开始创建实现,而是从现有的最先进的库中汲取灵感,并围绕加载图像数据、优化和评估模型以及扩展到云端构建额外的实用程序。 这些示例和实用程序希望通过将从定义业务问题到开发解决方案的经验简化几个数量级,从而显着缩短“上市时间”。此外,示例笔记本将用作指南,并以多种语言展示工具的最佳实践和使用情况。 示例以和的形式提供。所有示例都使用 PyTorch 作为底层深度学习库。 | #计算机视觉

封面图片

“计算机视觉女神”图像为何被IEEE期刊封杀?

“计算机视觉女神”图像为何被IEEE期刊封杀? △Lenna图也就是说,之后委员会或审稿人会特地留意论文中是否有这张图,如果有的话,会要求作者用替换图片。“Lenna图”的时代彻底结束了?要知道,这张图曾经的火爆程度belike:“计算机视觉女神”Lenna图最初是登在1972年11月期的《花花公子》(Playboy)杂志上的一张裸体插图,由摄影师Dwight Hooker拍摄,图中主体是瑞典模特Lena Forsén。当时,为了方便英语读者读准瑞典语“Lena”的发音,《花花公子》使用了“Lenna”这一名字。Lenna成为高分辨率彩色图像处理研究标准图的历史,在2001年5月的IEEE ComSoc通讯文章中被讲述:1973年的六七月份,时任南加州大学电气工程助理教授的Alexander Sawchuk及其团队,包括一名研究生和SIPI实验室管理人,正急切地寻找一张适合会议论文使用的高质量图片。他们的目标是找到一张既有光泽又能展现出良好动态范围的图像,而且最好是一张人脸图片。恰巧这时有人带着一本最新版的《花花公子》杂志走了进来。里面的Lenna图,被研究人员选中。他们将插图放到Muirhead有线传真扫描仪的光鼓上进行扫描。Muirhead的分辨率为固定的100LPI,而研究人员希望得到一幅512 x 512的图像,所以他们将扫描范围定在上部的5.12英寸,这样恰好裁剪到人物的肩膀位置,去除了裸体的部分。由此,一张512x512的Lenna测试图就诞生了。这张图在上世纪七八十年代的传播范围有限,最初仅是在美国各高校实验室之间流行。但到了1991年7月,Lenna图与另一张流行的测试图Peppers一起出现在计算机视觉领域的《Optical Engineering》杂志封面上,引起了大家的广泛注意。Lenna图备受喜欢的原因大概有这么几点。首先从技术上来讲,Lenna图有丰富的细节、明暗对比,同时也有平滑的过渡区域,而这很考验图像压缩算法的能力。众所周知,数字图像就是一个个像素点排列而成。而在压缩的时候,这些像素点都会被转化成频率信号。像素点之间差异大的区域,通常也就是细节丰富的区域,转化后对应高频信号,比较难处理;反过来像素点之间差异小的平滑过渡区域,就对应低频信号,处理起来也相对简单。一个好的压缩算法,高频和低频信号都得处理好。这两种信号,Lenna都有,分配比例还很恰当。其次,Lenna是一张漂亮小姐姐的照片,懂得都懂。但除此之外,还有一个更重要的原因:人眼对人脸非常敏感。你可能认不出两只二哈的脸有什么区别,但一个人的表情即使只有一丢丢变化,你都能一眼发觉。对图像压缩来说,相较于其他图像,人会更容易发觉人像在压缩前后的差异,所以也就更容易比较不同算法的好坏。正是由于以上种种优点,Lenna很快成了图像处理的标准测试图片。根据国外一个网站统计,91年后Lenna在互联网上的出现次数开始猛长。到了1996年,业界顶级期刊IEEE图像处理汇刊里,竟然有接近三分之一的文章都用到了Lenna。光在1999年的一期《IEEE图像处理汇刊》中,Lenna就被用于三篇独立研究中,21世纪初它还出现在了科学期刊中。由于Lenna在图像处理界被广泛接受,Lena Forsén本人受邀成为了1997年成像科学与技术学会 (IS&T) 第50届年会的嘉宾。2015年,Lena Forsén也是IEEE ICIP 2015晚宴的嘉宾,主持了最佳论文奖颁奖仪式。Lenna图的消逝不过,随之而来的还有大伙儿对这张图的批评。最大问题,就在于这张照片来源于有“物化女性”之嫌争议的《花花公子》。1999年,在一篇关于计算机科学中男性占主导地位原因的论文中,应用数学家Dianne P. O’Leary写道:“在图像处理中使用的暗示性图片……传达了讲师只迎合男性的信息。例如,令人惊讶的是,Lenna图像图像至今仍作为示例在课程中使用,并作为测试图片发表于学术期刊。”2015年,一个美国高中生在《华盛顿邮报》上写了一篇文章,文中叙述了自己作为一个女生,在计算机课上看到这张照片后感到不适,“我不理解,为什么一所先进的理工学校,在教学中会用一张花花公子的封面?”虽然这只是一篇高中生写的文章,但却在学界引起了巨大的震动。由于种种争议,2018年, Nature Nanotechnology杂志宣布禁止在论文提交中使用Lenna图像。至于Lena Forsén,2019年《连线》一篇文章中写道,Forsén并没有对这张图片心怀怨恨,但她对当初没有为此获得更好的报酬感到遗憾,曾表示“我真的为那张照片感到骄傲”。△Lena Forsén重拍当年照片但2019 年,Creatable和Code Like a Girl制作了一部名为“Losing Lena”的纪录片。Lena Forsén表示:我很久以前就退出了模特界,现在也该退出科技界了。我们可以在今天做出一个简单的改变,为明天创造一个持久的改变。让我们承诺失去我。现在看来,这一承诺正在兑现。除了上面所讲的争议,有网友认为Lenna图在当今这个时代的意义也跟以往大有不同了。不同于以往,当今几乎人人都可轻易使用一台好的相机。大多数精力应投入于创造合适的光照条件和挑选满足特定标准的拍摄对象。此外,一个精心设计的计算机生成图像也能满足需求。参考链接: ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人