Mozilla 的 Llamafile 0.8.2 通过新的 AVX2 性能优化获得巨大成功
Mozilla的Llamafile0.8.2通过新的AVX2性能优化获得巨大成功访问:Saily-使用eSIM实现手机全球数据漫游安全可靠源自NordVPNLlamafile的目标是让用户和开发人员更容易获得人工智能LLM,它支持从单个文件精简部署大型语言模型,这些模型既能在CPU和GPU上执行,也能跨平台运行。Llamafile已经支持利用AVX/AVX2实现更快的性能,并支持AVX-512以实现更快的速度。在今天发布的Llamafile0.8.2中,又增加了AVX2优化功能。Llamafile0.8.2发布说明中提到"此版本为K-quants和IQ4_XS引入了更快的AVX2提示处理。这是由@ikawrakow贡献给llamafile的,他在去年发明了K-quants:gerganov/llama.cpp@99009e7。在之前的版本中,我们推荐使用传统的Q4_0quant,因为它最简单、最直观,可以与最近的matmul优化一起使用。多亏了IwanKawrakow的努力,现在(在现代x86系统上)最好的quants(如Q5_K_M)将以最快的速度运行"。在过去几年中,英特尔和AMD处理器广泛支持高级矢量扩展2(AdvancedVectorExtensions2):大多数英特尔CPU从Haswell开始支持高级矢量扩展2,而AMD方面则从ExcavatorCPU开始支持高级矢量扩展2。拉取请求指出,在更快的AVX2提示处理方面取得了一些令人振奋的成果。据报告,各种计算器具的速度都提高了1.4至2.3倍。大量参与Llamafile开发工作的JustineTunney最初回应了拉取请求:"这是一个了不起的变化@ikawrakow。我很高兴看到最好的量化格式现在能以最快的速度运行。在x86-64机器上,我一直看到提示处理的速度提高了1.2-2.0倍。你们甚至成功地使令牌生成速度更快(我发现这要困难得多),在某些情况下甚至提高了1.33倍!"对于Llamafile0.8.2而言,这些针对提示处理的AVX2优化已经足够令人兴奋了。不过,0.8.2版还带来了内存错误修复、文本生成的轻微性能优化、本周的Llama.cpp代码更新以及各种新标志。有关Llamafile0.8.2版的下载和更多详情,请访问GitHub。针对新版本的新Llamafile基准测试即将发布。...PC版:https://www.cnbeta.com.tw/articles/soft/1430343.htm手机版:https://m.cnbeta.com.tw/view/1430343.htm
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人