Mozilla 的 Llamafile 0.8.2 通过新的 AVX2 性能优化获得巨大成功

Mozilla 的 Llamafile 0.8.2 通过新的 AVX2 性能优化获得巨大成功访问：Saily - 使用eSIM实现手机全球数据漫游安全可靠源自NordVPN Llamafile 的目标是让用户和开发人员更容易获得人工智能 LLM，它支持从单个文件精简部署大型语言模型，这些模型既能在 CPU 和 GPU 上执行，也能跨平台运行。Llamafile 已经支持利用 AVX/AVX2 实现更快的性能，并支持 AVX-512 以实现更快的速度。在今天发布的 Llamafile 0.8.2 中，又增加了 AVX2 优化功能。Llamafile 0.8.2 发布说明中提到"此版本为 K-quants 和 IQ4_XS 引入了更快的 AVX2 提示处理。这是由 @ikawrakow 贡献给 llamafile 的，他在去年发明了K-quants：gerganov/llama.cpp@99009e7。在之前的版本中，我们推荐使用传统的Q4_0 quant，因为它最简单、最直观，可以与最近的 matmul 优化一起使用。多亏了 Iwan Kawrakow 的努力，现在（在现代 x86 系统上）最好的quants（如 Q5_K_M）将以最快的速度运行"。在过去几年中，英特尔和 AMD 处理器广泛支持高级矢量扩展 2（Advanced Vector Extensions 2）：大多数英特尔 CPU 从 Haswell 开始支持高级矢量扩展 2，而 AMD 方面则从 Excavator CPU 开始支持高级矢量扩展 2。拉取请求指出，在更快的 AVX2 提示处理方面取得了一些令人振奋的成果。据报告，各种计算器具的速度都提高了 1.4 至 2.3 倍。大量参与 Llamafile 开发工作的 Justine Tunney 最初回应了拉取请求："这是一个了不起的变化 @ikawrakow。我很高兴看到最好的量化格式现在能以最快的速度运行。在 x86-64 机器上，我一直看到提示处理的速度提高了 1.2-2.0 倍。你们甚至成功地使令牌生成速度更快（我发现这要困难得多），在某些情况下甚至提高了 1.33 倍！"对于 Llamafile 0.8.2 而言，这些针对提示处理的 AVX2 优化已经足够令人兴奋了。不过，0.8.2 版还带来了内存错误修复、文本生成的轻微性能优化、本周的 Llama.cpp 代码更新以及各种新标志。有关 Llamafile 0.8.2 版的下载和更多详情，请访问GitHub。针对新版本的新Llamafile 基准测试即将发布。 ... PC版：手机版：

在Telegram中查看

相关推荐

高性能计算视觉系统(库)

高性能计算视觉系统(库) FlyCV是一个用于处理计算机视觉任务的高性能库。我们在手臂方面做了很多优化，使其比许多其他图像处理库更快。同时，我们也开始在其他CPU平台、异构计算平台上进行优化工作。与其他图像处理库相比，它不仅速度更快，还为我们提供了更细粒度的编译选项，并且尺寸更轻 |

LLM Runner Llamafile更新为Ryzen AVX-512 CPU带来10倍性能提升

LLM Runner Llamafile更新为Ryzen AVX-512 CPU带来10倍性能提升据悉，AMD 的 Zen 4"Ryzen"CPU 在使用新更新后，提示评估速度将提高十倍，最终使该工具的 LLM 性能更加高效。对于不了解 Llamafile 的人来说，它只需部署一个可执行文件，将 LLM 模型与运行该模型所需的库结合在一起即可。Mozilla Ocho 开发了这一工具，旨在通过利用 CPU 和 GPU 的执行能力，让更多人了解 LLM。不过，Llamafile的开发仍处于早期阶段，因此还存在一些不准确的地方，我们相信一旦边缘计算的发展势头强劲，这些问题很快就会得到解决。你可以通过 GitHub 访问最新版本。请注意，AMD 的 Ryzen CPU 是唯一支持 AVX-512 指令的消费级芯片，而英特尔已经放弃了对它的支持，因为害怕这会影响其至强芯片的销售。这使得 AMD 的 Ryzen 平台对于希望运行 AVX-512 应用程序的用户来说更具优势。 ... PC版：手机版：

OpenSSL 3.3发布为 QUIC 增加多项功能并优化CPU性能

OpenSSL 3.3发布为 QUIC 增加多项功能并优化CPU性能有关 OpenSSL 当前 QUIC HTTP/3 支持的详细信息，请参见此文档页面。OpenSSL 3.3 的变化包括：- 支持用于跟踪 QUIC 连接的 qlogc。- 围绕 QUIC 连接和多流 QUIC 服务器支持的许多新 API。- 针对 Microsoft Azure Cobalt 100 的 AES-GCM unroll8 优化。- 针对 ARM Neoverse V1 和 V2 处理器优化了 AES-CTR。- 为 Apple Silicon M3 优化了 AES 和 SHA3。- 在 LoongArch64 上实现了 MD5 的汇编。有关 OpenSSL 3.3 发布的下载和更多详细信息，请访问GitHub。 ... PC版：手机版：

【好文推荐】《优化 Stable Diffusion XL 的终极指南》

【好文推荐】《优化 Stable Diffusion XL 的终极指南》详细介绍和测试了 SDXL 的模型优化方式，可以让 SDXL 在低显存显卡上稳定运行。同时大幅提高生成速度降低图像质量的损失。推荐有部署和优化 SDXL 需求的朋友收藏阅读，写的真的很好。详细介绍- 该文详细介绍了如何优化Stable Diffusion XL (SDXL)以在任何显卡上获得最佳质量和性能。文章的核心目标是通过不同的优化技术，使SDXL能够在仅使用6GB内存的情况下生成图像，从而允许使用低端显卡。作者使用Hugging Face的diffusers库进行脚本编写和开发，旨在让读者了解和应用这些优化技术，以便在各种应用中，如Automatic1111的Stable Diffusion web UI或特别是ComfyUI中，充分利用它们。测试使用RunPod平台在Secure Cloud上生成了一个搭载RTX 3090显卡的GPU Pod进行。文章比较了不同优化技术的性能，包括感知图像质量、生成每张图像所需时间、以及使用的最大内存量。优化技术包括CUDA和PyTorch版本选择、注意力机制优化、FP16、TF32、以及多种管道优化技术，如模型CPU卸载、批处理处理、Stable Fast、DeepCache和TensorRT。文章的结论部分提供了一个表格，总结了所有测试的结果，并提供了在寻求质量、速度或在内存限制下运行推理过程时的建议。例如，FP16优化通过使用半精度浮点格式显著降低了内存使用量并提高了计算速度，而Stable Fast项目通过运行时优化显著提高了推理速度。DeepCache通过使用缓存系统在保持较小的内存使用增加的同时，大幅减少了推理时间，但可能会略微降低图像质量。总的来说，这篇文章为那些希望在不同硬件配置下优化Stable Diffusion XL性能的开发者提供了一份详尽的指南，展示了通过各种优化技术实现性能提升的可能性。文章地址：

Whisper JAX：这是一个对OpenAI开源的Whisper模型网页链接的优化版本，它针对GPU和TPU做了优化，性能提

Whisper JAX：这是一个对OpenAI开源的Whisper模型网页链接的优化版本，它针对GPU和TPU做了优化，性能提升了70倍，最快1小时的音频15秒能完成转录！提速的关键： 1. 批量处理 Transformers 实现了一种批处理算法，其中单个音频样本被分成 30 秒的片段，然后分批转录这些块。这种批处理算法比 OpenAI（按顺序转录块）提供高达 7 倍的增益 2. JAX优于PyTorch JAX 是一个用于高性能机器学习研究的自动微分库，通过即时 (JIT) 编译 Whisper，比PyTorch在 GPU 上获得了 2 倍的速度提升 3. TPUs 优于 GPUs 张量处理单元 (TPU) 是由 Google 设计的 ML 加速器， TPU 专为矩阵乘法而构建，与更通用的 GPU 相比具有显着优势。在 TPU v4-8 上运行 Whisper JAX 比在 NVIDIA A100 上快 5 倍！全部加在一起：批处理 7 倍 JAX 2 倍 TPU 5 倍速度增益 => 整体速度提升 70 倍 | |

Linux 6.9发布带来更好的Intel Core Ultra性能表现和更大的控制台字体选项

Linux 6.9发布带来更好的Intel Core Ultra性能表现和更大的控制台字体选项最值得关注的是，Linux 6.9提高了英特尔酷睿 Ultra"流星湖"处理器的性能表现，为 AMD Ryzen Linux 用户合并了 AMD P-State Preferred Core 也提高了AMD处理器运行表现，与此同时还在继续为 AMD RDNA3+ / RDNA4 GPU 做准备。作为对未来一代英特尔 CPU 的重要更新，Linux 6.9合并了英特尔 FRED，现在支持在现代/4K+ 显示器上使用更大的帧缓存控制台字体，DM 虚拟数据优化器（VDO）最终被主流化等等。Linux 6.9上发布。新版的发布也意味着现在已经进入 Linux 6.10 周期，预计会有许多新功能。Linus Torvalds 现在也发布了他惯常的6.9 版本公告，有兴趣的人可以看看他的评论。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人