Hidet是一个强大的深度学习编译器，可简化在现代加速器（例如 NVIDIA GPU）上实现高性能深度学习运算符的过程。借助 P

Hidet是一个强大的深度学习编译器，可简化在现代加速器（例如 NVIDIA GPU）上实现高性能深度学习运算符的过程。借助 PyTorch 2.0 中的新功能torch.compile(...)，将新型编译器集成到 PyTorch 中比以往任何时候都更容易Hidet 现在可以用作torch.compile(...)加速 PyTorch 模型的后端，这对于想要提高其推理性能的 PyTorch 用户来说是一个有吸引力的选择模型，特别是对于那些还需要实施极其优化的自定义运算符的人。 | #编译器

在Telegram中查看

相关推荐

：一个深度学习库，利用可组合的编译器实现高性能。它以极快的速度运行，支持Metal和CUDA，使用Rust编写，直接与底层API

：一个深度学习库，利用可组合的编译器实现高性能。它以极快的速度运行，支持Metal和CUDA，使用Rust编写，直接与底层API交互，无需中间层。其核心思想是提前编译所有内容，采用静态计算图实现惰性执行，使得编译器可以全局优化，实现了高效的核心运算与编译时间的分离。

Meta发布LLM编译器称将改变我们的编程方式

Meta发布LLM编译器称将改变我们的编程方式在将大型语言模型应用于代码和编译器优化方面，LLM 编译器背后的研究人员解决了一个尚未充分探索的重大空白。通过在包含 5460 亿条LLVM-IR和汇编代码的海量语料库上训练模型，他们使模型能够理解编译器中间表示、汇编语言和优化技术。研究人员在论文中解释说："LLM 编译器增强了对编译器中间表征（IR）、汇编语言和优化技术的理解。这种增强的理解能力使该模型能够执行以前由人类专家或专用工具完成的任务。"LLM 编译器在代码大小优化方面取得了显著成果。在测试中，该模型的优化潜力达到了自动调整搜索的 77%，这一结果可以显著缩短编译时间，提高各种应用的代码效率。事实证明，该模型的反汇编能力更令人印象深刻。在将 x86_64 和 ARM 汇编转换回 LLVM-IR 时，LLM 编译器显示了 45% 的往返反汇编成功率（14% 精确匹配）。这种能力对于逆向工程任务和遗留代码维护来说非常宝贵。了解更多： Cummins）强调了这项技术的潜在影响：他说："通过提供两种规模（70 亿个参数和 130 亿个参数）的预训练模型，并通过微调版本展示其有效性，LLM 编译器为探索 LLM 在代码和编译器优化领域尚未开发的潜力铺平了道路。"这项技术的影响深远而广泛。软件开发人员可以受益于更快的编译时间、更高效的代码以及用于理解和优化复杂系统的新工具。研究人员获得了探索人工智能驱动的编译器优化的新途径，有可能在软件开发方法上实现突破。特别值得一提的是，Meta 决定以许可商业授权的方式发布 LLM 编译器。此举使学术研究人员和行业从业人员都能利用和改造这项技术，从而有可能加速该领域的创新。然而，如此强大的人工智能模型的发布也引发了人们对软件开发不断变化的格局的质疑。随着人工智能处理复杂编程任务的能力越来越强，它可能会重塑未来软件工程师和编译器设计师所需的技能。LLM 编译器代表的不仅仅是一种渐进式改进，而是我们在处理编译器技术和代码优化方面的根本性转变。通过这一版本，Meta 向学术界和工业界提出了挑战，以推动人工智能辅助编程的发展。随着人工智能驱动的代码优化领域的不断发展，全球开发人员和研究人员如何采用、调整和改进这一开创性技术，将是一个引人入胜的话题。 ... PC版：手机版：

微软DirectX着色器编译器的Linux编译支持得到改进

微软DirectX着色器编译器的Linux编译支持得到改进 Linux上的DirectX着色器编译器对于利用这种基于LLVM的编译器将HLSL转换到SPIR-V供Vulkan驱动程序使用、WSL2使用、持续集成或基于Linux且仍在组装DXIL的构建计算农场，以及类似的其他（基于Linux的）云着色器编译器应用场景都非常有用。自2017 年微软开源其 DirectX 着色器编译器以来，Linux 支持已经逐渐形成，并且自 2018 年以来一直在享受 Linux 支持。通过今天的 DirectXShaderCompiler v1.8.2403"March 2024"更新，现在已经完全支持着色器模型 6.8、改进的编译时验证、稳定性改进以及各种诊断改进。此外还有"Linux 构建质量的进一步改进"。Linux 更新包括有利于 Linux 使用的构建系统改进，以及增强的 Linux 测试覆盖率。想要下载这款开源 DirectX 着色器编译器或了解有关新版本的更多信息，可以通过GitHub 进行下载。 ... PC版：手机版：

让 Python 和 C 语言性能相当的新编译器

让 Python 和 C 语言性能相当的新编译器是一个新的 “高性能 Python 编译器，它可以将 Python 代码编译为本地机器代码，没有任何运行时间的开销”。与 Python 相比，在单线程上，典型的速度提升是 10-100 倍或更多。而且 Codon 支持原生多线程，这可以使速度再提高许多倍。Codon 的性能与 C/C++ 的性能相当（有时甚至更好）。用户只需像他们习惯的那样写 Python，而不必担心数据类型或性能，Codon 会自动处理这些问题，他们的代码运行速度比普通 Python 快 10 到 100 倍。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

OneFlow v0.9.0更新，分布式深度学习框架

OneFlow v0.9.0更新，分布式深度学习框架此更新包含 640 个提交和以下亮点： 1.OneFlow v0.9.0 增加了 86 个与 PyTorch 对齐的新 API 接口和运算符，并修复了 104 个与运算符兼容性相关的错误，从而提供了更好的 PyTorch API 和模型兼容性。在 v0.9.0 中，用户可以一键将更多 PyTorch 模型迁移到 OneFlow，获得更快的性能。 2.支持一键迁移Stable Diffusion、GLM、YOLOv5等到OneFlow。 3.更方便的模型迁移。Oneflow.load支持torch.save直接加载模型。 4.通过新增的oneflow.mock_torch模块和mock方法，oneflow可以在不改变原有PyTorch脚本的情况下，一键迁移包含多个脚本的复杂PyTorch模型。 5.Global Tensor增加了一系列方便分布式编程的接口和方法，并修复了已知的相关bug。 6.The Graph 发布了自动并行（version 1）的新特性，支持自动搜索指定 Placement 下最快的 SBP。使用 Global Tensor 编写分布式模型时，用户无需考虑并行性。 7.The Graph 添加了一系列与内存、执行速度、管道屏蔽和编译速度相关的优化，以提高性能并减少内存开销。 8.Graph提供了一系列辅助调试的功能，包括分析内存日志、显示编译阶段的进度、计算图等。 9.OneFlow IR 提供了更多的编译优化功能。 10.OneFlow的错误提示更加人性化，支持高亮显示错误内容，简化系统内部不必要的信息细节。就此而言，您可以直观地了解错误的位置和类型。 11.增加了一系列算子优化和系统优化，包括Eager指令调度、高性能CUDA内核、开放多个内存池等。 | #框架

Golang 编译器代码浅析

Golang 编译器代码浅析本书主要目的是让读者在源码层面熟悉 Go 编译器的实现，因此会以代码讲解为主。但编译器的实现涉及到非常多的细节处理，本文会尽量避免大段的贴代码来对其进行分析（实际上也是不可行的），而是建议读者将文章当着一个参考，自己动手去源码中进行探索。因此每个主题的文章基本会按照如下结构进行组织： 1. 该模块的简介，需要涉及到的理论知识复习。例如词法、语法分析中涉及到很多形式语言与自动机的知识，文章都会先尽可能少地温习一下相关知识 2. 核心数据结构介绍，意在搭建该模块的骨架 3. 核心逻辑介绍，意在了解该模块实现的主体算法思路 4. 特殊案例分析，详细分析典型案例的处理流程另外作者还开了两个坑《Linux核心概念详解》和《极简计算机结构介绍》，也写了一些内容不过还不太完整。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人