Hidet是一个强大的深度学习编译器,可简化在现代加速器(例如 NVIDIA GPU)上实现高性能深度学习运算符的过程。借助 P

Hidet是一个强大的深度学习编译器,可简化在现代加速器(例如 NVIDIA GPU)上实现高性能深度学习运算符的过程。借助 PyTorch 2.0 中的新功能torch.compile(...),将新型编译器集成到 PyTorch 中比以往任何时候都更容易Hidet 现在可以用作torch.compile(...)加速 PyTorch 模型的后端,这对于想要提高其推理性能的 PyTorch 用户来说是一个有吸引力的选择模型,特别是对于那些还需要实施极其优化的自定义运算符的人。 | #编译器

相关推荐

封面图片

:一个深度学习库,利用可组合的编译器实现高性能。它以极快的速度运行,支持Metal和CUDA,使用Rust编写,直接与底层API

:一个深度学习库,利用可组合的编译器实现高性能。它以极快的速度运行,支持Metal和CUDA,使用Rust编写,直接与底层API交互,无需中间层。 其核心思想是提前编译所有内容,采用静态计算图实现惰性执行,使得编译器可以全局优化,实现了高效的核心运算与编译时间的分离。

封面图片

OneFlow v0.9.0更新,分布式深度学习框架

OneFlow v0.9.0更新,分布式深度学习框架 此更新包含 640 个提交和以下亮点: 1.OneFlow v0.9.0 增加了 86 个与 PyTorch 对齐的新 API 接口和运算符,并修复了 104 个与运算符兼容性相关的错误,从而提供了更好的 PyTorch API 和模型兼容性。在 v0.9.0 中,用户可以一键将更多 PyTorch 模型迁移到 OneFlow,获得更快的性能。 2.支持一键迁移Stable Diffusion、GLM、YOLOv5等到OneFlow。 3.更方便的模型迁移。Oneflow.load支持torch.save直接加载模型。 4.通过新增的oneflow.mock_torch模块和mock方法,oneflow可以在不改变原有PyTorch脚本的情况下,一键迁移包含多个脚本的复杂PyTorch模型。 5.Global Tensor增加了一系列方便分布式编程的接口和方法,并修复了已知的相关bug。 6.The Graph 发布了自动并行(version 1)的新特性,支持自动搜索指定 Placement 下最快的 SBP。使用 Global Tensor 编写分布式模型时,用户无需考虑并行性。 7.The Graph 添加了一系列与内存、执行速度、管道屏蔽和编译速度相关的优化,以提高性能并减少内存开销。 8.Graph提供了一系列辅助调试的功能,包括分析内存日志、显示编译阶段的进度、计算图等。 9.OneFlow IR 提供了更多的编译优化功能。 10.OneFlow的错误提示更加人性化,支持高亮显示错误内容,简化系统内部不必要的信息细节。就此而言,您可以直观地了解错误的位置和类型。 11.增加了一系列算子优化和系统优化,包括Eager指令调度、高性能CUDA内核、开放多个内存池等。 | #框架

封面图片

微软DirectX着色器编译器的Linux编译支持得到改进

微软DirectX着色器编译器的Linux编译支持得到改进 Linux上的DirectX着色器编译器对于利用这种基于LLVM的编译器将HLSL转换到SPIR-V供Vulkan驱动程序使用、WSL2使用、持续集成或基于Linux且仍在组装DXIL的构建计算农场,以及类似的其他(基于Linux的)云着色器编译器应用场景都非常有用。自2017 年微软开源其 DirectX 着色器编译器以来,Linux 支持已经逐渐形成,并且自 2018 年以来一直在享受 Linux 支持。通过今天的 DirectXShaderCompiler v1.8.2403"March 2024"更新,现在已经完全支持着色器模型 6.8、改进的编译时验证、稳定性改进以及各种诊断改进。此外还有"Linux 构建质量的进一步改进"。Linux 更新包括有利于 Linux 使用的构建系统改进,以及增强的 Linux 测试覆盖率。想要下载这款开源 DirectX 着色器编译器或了解有关新版本的更多信息,可以通过GitHub 进行下载。 ... PC版: 手机版:

封面图片

Meta发布LLM编译器 称将改变我们的编程方式

Meta发布LLM编译器 称将改变我们的编程方式 在将大型语言模型应用于代码和编译器优化方面,LLM 编译器背后的研究人员解决了一个尚未充分探索的重大空白。通过在包含 5460 亿条LLVM-IR和汇编代码的海量语料库上训练模型,他们使模型能够理解编译器中间表示、汇编语言和优化技术。研究人员在论文中解释说:"LLM 编译器增强了对编译器中间表征(IR)、汇编语言和优化技术的理解。这种增强的理解能力使该模型能够执行以前由人类专家或专用工具完成的任务。"LLM 编译器在代码大小优化方面取得了显著成果。在测试中,该模型的优化潜力达到了自动调整搜索的 77%,这一结果可以显著缩短编译时间,提高各种应用的代码效率。事实证明,该模型的反汇编能力更令人印象深刻。在将 x86_64 和 ARM 汇编转换回 LLVM-IR 时,LLM 编译器显示了 45% 的往返反汇编成功率(14% 精确匹配)。这种能力对于逆向工程任务和遗留代码维护来说非常宝贵。了解更多: Cummins)强调了这项技术的潜在影响:他说:"通过提供两种规模(70 亿个参数和 130 亿个参数)的预训练模型,并通过微调版本展示其有效性,LLM 编译器为探索 LLM 在代码和编译器优化领域尚未开发的潜力铺平了道路。"这项技术的影响深远而广泛。软件开发人员可以受益于更快的编译时间、更高效的代码以及用于理解和优化复杂系统的新工具。研究人员获得了探索人工智能驱动的编译器优化的新途径,有可能在软件开发方法上实现突破。特别值得一提的是,Meta 决定以许可商业授权的方式发布 LLM 编译器。此举使学术研究人员和行业从业人员都能利用和改造这项技术,从而有可能加速该领域的创新。然而,如此强大的人工智能模型的发布也引发了人们对软件开发不断变化的格局的质疑。随着人工智能处理复杂编程任务的能力越来越强,它可能会重塑未来软件工程师和编译器设计师所需的技能。LLM 编译器代表的不仅仅是一种渐进式改进,而是我们在处理编译器技术和代码优化方面的根本性转变。通过这一版本,Meta 向学术界和工业界提出了挑战,以推动人工智能辅助编程的发展。随着人工智能驱动的代码优化领域的不断发展,全球开发人员和研究人员如何采用、调整和改进这一开创性技术,将是一个引人入胜的话题。 ... PC版: 手机版:

封面图片

让 Python 和 C 语言性能相当的新编译器

让 Python 和 C 语言性能相当的新编译器 是一个新的 “高性能 Python 编译器,它可以将 Python 代码编译为本地机器代码,没有任何运行时间的开销”。与 Python 相比,在单线程上,典型的速度提升是 10-100 倍或更多。而且 Codon 支持原生多线程,这可以使速度再提高许多倍。Codon 的性能与 C/C++ 的性能相当(有时甚至更好)。用户只需像他们习惯的那样写 Python,而不必担心数据类型或性能,Codon 会自动处理这些问题,他们的代码运行速度比普通 Python 快 10 到 100 倍。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

运行时超轻量,高效,移植简单的深度学习模型

运行时超轻量,高效,移植简单的深度学习模型 MegCC 是一个面向推理的深度学习模型编译器,具有如下特点: 极其轻量的运行时库 :只编译 mobilenetv1 模型进行推理情况下,strip 符号后,整个运行时二进制大小只有 81KB 。 高性能 :Arm 上的每一个 Kernel 都是经过人工精心调优的,同样的模型,性能比 MegEngine 好 。 方便移植:运行时所有 Code 都是纯 C 代码,可以方便在 Arm,X86,裸板中进行移植。 低内存使用,快启动:模型编译期间会进行内存规划,尽可能的复用内存,并进行静态绑定,减少运行时开销。 MegCC 主要由两部分组成: 编译器:负责将模型进行编译,优化,最终生成新模型和对应的 Kernels runtime 运行时:运行时需要和生成的 Kernels 结合在一起进行编译,编译完成之后可以加载编译器生成的模型,并计算输出结果 MegCC 模型编译器是基于 MLIR 框架构建起来的,使用 MLIR 的 IR 进行图优化,内存规划以及 Kernel 生成,目前 MegCC 生成的 Kernel 大多数都是 基于人工优化之后写好的模板生成的。MegCC 支持多种场景的模型编译,不仅仅包含静态 shape 编译,而且还支持动态 shape 的编译,多个模型同时编译,以及同一个模型多种 shape 同时编译,另外为了获得极致的最小运行时库,还提供必要的纯 C 形式的 CV 算子生成。 模型编译完成之后,MegCC 会生成两个产物,分别是: 优化之后的新模型: 这个模型里面包含整个计算图的信息,以及每一个 Operator 运行时的内存规划信息,输入输出信息,计算 Kernel 的信息 运行这些模型对应的 Kernel:上面模型运行时候需要的所有高性能 Kernel 的集合。 MegCC runtime 会在运行时会加载生成的模型,并调用生成的高性能 Kernel 进行计算,并输出计算结果,目前测试一个可以高效运行 mobilenetv1 的可执行文件大小仅仅只需要 81KB。 MegCC 现在支持的平台处理器平台有 Arm64/ArmV7/X86/risc-v/单片机, 所有支持的 Operator 列表见:.

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人