Mozilla 的 Llamafile 0.8.2 通过新的 AVX2 性能优化获得巨大成功

Mozilla 的 Llamafile 0.8.2 通过新的 AVX2 性能优化获得巨大成功 访问:Saily - 使用eSIM实现手机全球数据漫游 安全可靠 源自NordVPN Llamafile 的目标是让用户和开发人员更容易获得人工智能 LLM,它支持从单个文件精简部署大型语言模型,这些模型既能在 CPU 和 GPU 上执行,也能跨平台运行。Llamafile 已经支持利用 AVX/AVX2 实现更快的性能,并支持 AVX-512 以实现更快的速度。在今天发布的 Llamafile 0.8.2 中,又增加了 AVX2 优化功能。Llamafile 0.8.2 发布说明中提到"此版本为 K-quants 和 IQ4_XS 引入了更快的 AVX2 提示处理。这是由 @ikawrakow 贡献给 llamafile 的,他在去年发明了K-quants:gerganov/llama.cpp@99009e7。在之前的版本中,我们推荐使用传统的Q4_0 quant,因为它最简单、最直观,可以与最近的 matmul 优化一起使用。多亏了 Iwan Kawrakow 的努力,现在(在现代 x86 系统上)最好的quants(如 Q5_K_M)将以最快的速度运行"。在过去几年中,英特尔和 AMD 处理器广泛支持高级矢量扩展 2(Advanced Vector Extensions 2):大多数英特尔 CPU 从 Haswell 开始支持高级矢量扩展 2,而 AMD 方面则从 Excavator CPU 开始支持高级矢量扩展 2。拉取请求指出,在更快的 AVX2 提示处理方面取得了一些令人振奋的成果。据报告,各种计算器具的速度都提高了 1.4 至 2.3 倍。大量参与 Llamafile 开发工作的 Justine Tunney 最初回应了拉取请求:"这是一个了不起的变化 @ikawrakow。我很高兴看到最好的量化格式现在能以最快的速度运行。在 x86-64 机器上,我一直看到提示处理的速度提高了 1.2-2.0 倍。你们甚至成功地使令牌生成速度更快(我发现这要困难得多),在某些情况下甚至提高了 1.33 倍!"对于 Llamafile 0.8.2 而言,这些针对提示处理的 AVX2 优化已经足够令人兴奋了。不过,0.8.2 版还带来了内存错误修复、文本生成的轻微性能优化、本周的 Llama.cpp 代码更新以及各种新标志。有关 Llamafile 0.8.2 版的下载和更多详情,请访问GitHub。针对新版本的新Llamafile 基准测试即将发布。 ... PC版: 手机版:

相关推荐

封面图片

高性能计算视觉系统(库)

高性能计算视觉系统(库) FlyCV是一个用于处理计算机视觉任务的高性能库。我们在手臂方面做了很多优化,使其比许多其他图像处理库更快。同时,我们也开始在其他CPU平台、异构计算平台上进行优化工作。与其他图像处理库相比,它不仅速度更快,还为我们提供了更细粒度的编译选项,并且尺寸更轻 |

封面图片

:旨在通过Intel Neural Compressor和llama.cpp支持的低bit量化和稀疏性的创新库,为Intel平台

:旨在通过Intel Neural Compressor和llama.cpp支持的低bit量化和稀疏性的创新库,为Intel平台上的大型语言模型(LLMs)提供高效的推断能力,提供了以下实验性特性:模块化设计以支持新模型,高度优化的低精度核心,利用AMX、VNNI、AVX512F和AVX2指令集,支持CPU(仅限x86平台)和Intel GPU(正在开发中),支持4-bit和8-bit量化。

封面图片

LLM Runner Llamafile更新为Ryzen AVX-512 CPU带来10倍性能提升

LLM Runner Llamafile更新为Ryzen AVX-512 CPU带来10倍性能提升 据悉,AMD 的 Zen 4"Ryzen"CPU 在使用新更新后,提示评估速度将提高十倍,最终使该工具的 LLM 性能更加高效。对于不了解 Llamafile 的人来说,它只需部署一个可执行文件,将 LLM 模型与运行该模型所需的库结合在一起即可。Mozilla Ocho 开发了这一工具,旨在通过利用 CPU 和 GPU 的执行能力,让更多人了解 LLM。不过,Llamafile的开发仍处于早期阶段,因此还存在一些不准确的地方,我们相信一旦边缘计算的发展势头强劲,这些问题很快就会得到解决。你可以通过 GitHub 访问最新版本。请注意,AMD 的 Ryzen CPU 是唯一支持 AVX-512 指令的消费级芯片,而英特尔已经放弃了对它的支持,因为害怕这会影响其至强芯片的销售。这使得 AMD 的 Ryzen 平台对于希望运行 AVX-512 应用程序的用户来说更具优势。 ... PC版: 手机版:

封面图片

周三,IP 核心设计公司 Arm 宣布了其面向旗舰智能手机的下一代 CPU 和 GPU 设计:Cortex-X925 CPU 和

周三,IP 核心设计公司 Arm 宣布了其面向旗舰智能手机的下一代 CPU 和 GPU 设计:Cortex-X925 CPU 和 Immortalis G925 GPU。它们都是 Cortex-X4 和 Immortalis G720 的直接继任者,目前这些芯片为包括 Vivo X100 和 X100 Pro 以及 Oppo Find X7 在内的旗舰智能手机中的联发科天玑 9300 芯片提供动力。 Arm 更改了其 Cortex-X CPU 设计的命名规则,以突出其所谓的更快的 CPU 设计。它声称 X925 的单核性能比 X4 快 36%(在 Geekbench 中测量)。Arm 表示,它将 AI 工作负载性能提高了 41%,时间到令牌,并且拥有高达 3MB 的私有 L2 缓存。 Cortex-X925 也带来了新一代的 Cortex-A 微架构(“小”核心):Cortex-A725。Arm 公司表示,它的性能效率比上一代的 A720 提高了 35%,而且 Cortex-A520 的能效提高了 15%。 Arm 公司表示,他们最新的 Immortalis G925 GPU 是迄今为止“性能最强、效率最高”的 GPU。与上一代 G720 相比,它在图形应用上的速度快了 37%,在处理复杂物体的光线追踪性能上提升了 52%,在人工智能和机器学习任务上的表现提升了 34%,而且功耗降低了 30%。 Arm将首次提供其新型CPU和GPU设计的“优化布局”,并表示这将使设备制造商更容易将其“投放”或实现到自己的片上系统(SoC)布局中。Arm表示,这种新的物理实现解决方案将帮助其他公司更快地将他们的设备推向市场。 作为对移动游戏开发者的额外奖励,虚幻引擎上的 Lumen 光线追踪现在支持 Immortalis 标签: #Arm #GPU #芯片 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

OpenSSL 3.3发布 为 QUIC 增加多项功能并优化CPU性能

OpenSSL 3.3发布 为 QUIC 增加多项功能并优化CPU性能 有关 OpenSSL 当前 QUIC HTTP/3 支持的详细信息,请参见此文档页面。OpenSSL 3.3 的变化包括:- 支持用于跟踪 QUIC 连接的 qlogc。- 围绕 QUIC 连接和多流 QUIC 服务器支持的许多新 API。- 针对 Microsoft Azure Cobalt 100 的 AES-GCM unroll8 优化。- 针对 ARM Neoverse V1 和 V2 处理器优化了 AES-CTR。- 为 Apple Silicon M3 优化了 AES 和 SHA3。- 在 LoongArch64 上实现了 MD5 的汇编。有关 OpenSSL 3.3 发布的下载和更多详细信息,请访问GitHub。 ... PC版: 手机版:

封面图片

《360安全浏览器_v15_3_6401_64_去广告精简优化绿色版.exe》

《360安全浏览器_v15_3_6401_64_去广告精简优化绿色版.exe》 简介:360安全浏览器_v15_3_6401_64_去广告精简优化绿色版.exe是一款经过优化的浏览器软件。它在保留360安全浏览器基本功能的基础上,进行了去广告处理,去除了页面广告和弹窗广告,减少广告对用户浏览网页的干扰,让用户拥有更清爽的浏览体验。同时,软件经过精简优化,安装包体积更小,占用系统资源更少,启动速度更快,提高了浏览器的运行效率。具备强大的安全防护功能,可有效拦截恶意网站、钓鱼网站,保护用户的上网安全,防止个人信息泄露。此外,它还支持多标签浏览、收藏夹同步等实用功能,方便用户管理浏览内容和在不同设备上同步数据 标签: #360安全浏览器_v15_3_6401_64_去广告精简优化绿色版 #浏览器 #去广告 #安全防护 #精简优化 文件大小 NG 链接:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人