Mozilla 的 Llamafile 0.8.2 通过新的 AVX2 性能优化获得巨大成功

Mozilla的Llamafile0.8.2通过新的AVX2性能优化获得巨大成功访问:Saily-使用eSIM实现手机全球数据漫游安全可靠源自NordVPNLlamafile的目标是让用户和开发人员更容易获得人工智能LLM,它支持从单个文件精简部署大型语言模型,这些模型既能在CPU和GPU上执行,也能跨平台运行。Llamafile已经支持利用AVX/AVX2实现更快的性能,并支持AVX-512以实现更快的速度。在今天发布的Llamafile0.8.2中,又增加了AVX2优化功能。Llamafile0.8.2发布说明中提到"此版本为K-quants和IQ4_XS引入了更快的AVX2提示处理。这是由@ikawrakow贡献给llamafile的,他在去年发明了K-quants:gerganov/llama.cpp@99009e7。在之前的版本中,我们推荐使用传统的Q4_0quant,因为它最简单、最直观,可以与最近的matmul优化一起使用。多亏了IwanKawrakow的努力,现在(在现代x86系统上)最好的quants(如Q5_K_M)将以最快的速度运行"。在过去几年中,英特尔和AMD处理器广泛支持高级矢量扩展2(AdvancedVectorExtensions2):大多数英特尔CPU从Haswell开始支持高级矢量扩展2,而AMD方面则从ExcavatorCPU开始支持高级矢量扩展2。拉取请求指出,在更快的AVX2提示处理方面取得了一些令人振奋的成果。据报告,各种计算器具的速度都提高了1.4至2.3倍。大量参与Llamafile开发工作的JustineTunney最初回应了拉取请求:"这是一个了不起的变化@ikawrakow。我很高兴看到最好的量化格式现在能以最快的速度运行。在x86-64机器上,我一直看到提示处理的速度提高了1.2-2.0倍。你们甚至成功地使令牌生成速度更快(我发现这要困难得多),在某些情况下甚至提高了1.33倍!"对于Llamafile0.8.2而言,这些针对提示处理的AVX2优化已经足够令人兴奋了。不过,0.8.2版还带来了内存错误修复、文本生成的轻微性能优化、本周的Llama.cpp代码更新以及各种新标志。有关Llamafile0.8.2版的下载和更多详情,请访问GitHub。针对新版本的新Llamafile基准测试即将发布。...PC版:https://www.cnbeta.com.tw/articles/soft/1430343.htm手机版:https://m.cnbeta.com.tw/view/1430343.htm

相关推荐

封面图片

Intel AVX-512指令集复活 小核心终于也能跑了

IntelAVX-512指令集复活小核心终于也能跑了基本层面上,大核可以完整执行256/512位指令,小核则只能执行融合256位指令(可以粗略理解为支持到AVX-256)。更深层面上,AVX10可以说是AVX-512的超集,不但包含所有的AVX-512指令,对应的功能标识为AVX-512VL,还有256位的矢量寄存器、八个32位的掩码寄存器、支持嵌入式舍入的新版256位指令。其中,P大核可以可以使用512位矢量,E小核则限制在256位矢量长度。AVX10推出后,AVX-512也将彻底冻结,不会再有变化,未来对于它的使用都通过AVX10来实现。Intel强调,现有应用基于AVX-512、AVX10的性能是一样的,至少在同等矢量长度下没有区别。AVX2编译的程序,重新编译支持AVX10,会获得性能提升,且无需再次对软件调优。对矢量寄存器压力敏感的AVX2程序,获得的性能提升最明显,这要感谢额外的16个矢量寄存器和新的指令。高度线程化的矢量化应用在E核上运行时,可获得更高的总吞吐量。Intel下一代消费级酷睿处理器是MeteorLake,依然不会有AVX-512,再下一代的ArrowLake是否会首次加入AVX10,尚不确认。今年底,Intel将推出第五代可扩展至强EmeraldRapids,只是现有第四代SapphireRapids的升级版,因此要到明年的第六代至强GraniteRapids,才会加入AVX10。至于明年首款纯小核设计的SierraForest,是否也会加入AVX10,暂时不清楚。不过,AVX10的落地分为两步,第一步是AVX10.1,用于六代至强GraniteRapids,仅支持512位矢量指令,而不支持融合256位矢量指令。第二步是AVX10.2,应该用于七代至强ClearwaterForest,加入融合256位矢量指令,并加入其他新功能,比如AI数据类型和转换、数据转移优化等等。...PC版:https://www.cnbeta.com.tw/articles/soft/1372993.htm手机版:https://m.cnbeta.com.tw/view/1372993.htm

封面图片

英特尔x86指令集演进的下一步:AVX10、APX

英特尔x86指令集演进的下一步:AVX10、APX正如英特尔公司为开发人员提供的官方网站所解释的那样,x86架构目前广泛应用于数据中心、个人电脑和其他各种需要性能导向型CPU和繁重计算工作量的环境中。最初的x86ISA于1978年通过8086CPU推出,只有8个16位通用寄存器,后来寄存器的数量增加了一倍,大小增加了四倍。寄存器在中央处理器中起着至关重要的作用,因为它们存储着处理器在任何给定时刻都在积极处理的数据位。因此,英特尔公司将高级性能扩展(APX)技术视为x86ISA的重要发展步骤。它扩展了整个x86指令集,允许访问更多的寄存器,并引入了新的功能来提高CPU的整体性能。英特尔公司称,APX将通用x86寄存器的数量翻了一番,从16个增加到32个,为编译器提供了更多的数据存储空间。该公司解释说,与根据英特尔x64ISA"基准"编译的二进制程序相比,APX编译的代码"加载次数减少10%,存储次数减少20%以上"。简单地说,与复杂的加载和存储操作相比,寄存器访问速度更快,消耗的动态功耗"大大降低"。在下一代英特尔CPU型号中,效率的提高可能会带来更高的性能水平。APX还将扩展x86ISA的条件指令集,该指令集最早是在奔腾Pro处理器中通过CMOV/SET指令引入的。这些指令被当今的编译器广泛使用,而APX似乎提高了英特尔CPU的分支预测能力。据英特尔公司称,程序员只需重新编译代码,就可以利用APX的功能,因为不需要修改源代码。APX再次证明了"x86可变长度指令编码"的优势,新功能通过对底层芯片进行"增量更改"来增强整个ISA,从而在硬件中解码指令。除APX外,未来几代英特尔CPU还将包含新的AVX10ISA。正如官方文件中解释的那样,这项技术是英特尔在2013年首次提出的AVX-512向量指令集的全新主要实现。新的ISA将在所有英特尔CPU架构上建立一个"通用、融合的矢量指令集",使其在未来的所有处理器上都能得到支持,包括高性能内核(P-cores)和高效内核(E-cores)。英特尔最初在第12代酷睿消费级CPU上引入了对AVX-512矢量指令的支持,但这些指令只适用于P核单元,后来通过固件微码更新意外禁用了这些指令。事实证明,x86ISA的矢量扩展在试图模拟复杂的现代游戏机架构(如PlayStation3(RPCS3))的开发人员中非常受欢迎。x86ISA的AVX10扩展将支持以前引入的所有AVX(矢量)指令扩展,最大矢量寄存器长度为256位。最初的AVX10版本(AVX10.1)不包含任何新指令;其唯一目的是方便从AVX-512过渡到适当的、全核兼容(P核、E核)的AVX10实现(即AVX10.2)。...PC版:https://www.cnbeta.com.tw/articles/soft/1373353.htm手机版:https://m.cnbeta.com.tw/view/1373353.htm

封面图片

Mesa3D正在为LLVMpipe启用对AMD Zen 4 CPU的AVX-512支持

Mesa3D正在为LLVMpipe启用对AMDZen4CPU的AVX-512支持作为Mesa3D图形项目的独立贡献者,YonggangLuo已开始着手为LLVMpipe启用AVX-512支持。至于这么做的原因,主要是AMD在Zen4锐龙7000系列台式处理器上引入了AVX-512指令集。通过驱动方面的优化,Luo希望为R9-7950X等CPU带来最佳性能增益。有趣的是,尽管Intel多年来一直在力推AVX-512,但在12代酷睿台式处理器身上,该公司还是通过后续的微码更新而禁用了这项高能耗特性。出乎意料的是,AMD却选择了在Zen4锐龙7000系列台式处理器上提供了AVX-512指令集。至于LLVMpipie,则是一种独特的MesaOpenGL软解方案。当计算机系统找不到显卡硬件/GPU驱动程序时,就可选择基于CPU软解的LLVMpipe方案。不过相较于锐龙7000集成的RNDA2核显,软解的优势显然不会如预期那般显著——即便AMD用的是256-bit(而不是512-bit)路径。据悉,LLVM是“用于为任何编程语言创建前端、并为任何指令集架构创建后端的编译器/工具链技术的一个集合”。LLVMpipe将允许LLVM使用一组特定的扩展,并提供较其它软件软件(比如Softpipe/OpenGL)的可执行文件更高的性能。截图(来自:FreeDesktop)目前尚不清楚AVX-512可在AMDZen4新架构上提供多高的性能,此外本次合并请求中包含了一个被称“GALLIUM_OVERRIDE_CPU_CAPS”的环境变量。该变量能够在Softpipie和LLVMpipe中覆盖CPU功能,以禁用或启用AVX、SSE和其它指令集功能。最后,“LP_NATIVE_VECTOR_WIDTH”将允许更改向量位宽,以在LLVMpipe中使用AVX、AVX2、或AVX-512。相关文章:AMDZen416核锐龙97950X出现支持AVX-512锐龙7000被指AVX512不满血:Intel6年前的14nm就做到了...PC版:https://www.cnbeta.com/articles/soft/1312021.htm手机版:https://m.cnbeta.com/view/1312021.htm

封面图片

AVX-512指令立奇功 AMD Zen4基准性能飙升31%

AVX-512指令立奇功AMDZen4基准性能飙升31%反倒是AMDZen4架构的锐龙7000系列首次加入了AVX-512,可以获得各种加速,AI、HPC应用都能获益匪浅。y-cruncher的开发者AlexanderYee从三年前就开始开发全新的0.8x版本,新增、修改了超过40万行代码,让程序更加精炼、高效,对比现在的0.7.10版本在几乎所有处理器上都有性能提升。比如说锐龙97950X,得益于AVX-512GFNI指令,性能可提升多达23-31%,而同样支持该指令的i7-1165G7、i7-11800H,也能分别提速12-22%、23-27%。Intel、AMD的其他老处理器,凭借AVX2指令集,也能获得10%左右不等的性能提升。但太老的就不行了,2008年的Nahalemi7-920因为仅支持SSE4.1指令集,性能反而会暴跌27%。2012年二代酷睿的i7-3630QM只有第一代AVX指令集,性能也会损失10%。同一年的打桩机架构FX-8350,只有FMA4指令集,性能也会稍微下降1%。有消息称,AVX-512指令集将在未来的Intel消费级处理器上回归。只是,这还需要一些时间,具体在哪一代产品上成真还未可知,反正MeteorLake14代绝对没戏,ArrowLake15代可能性也不大。...PC版:https://www.cnbeta.com.tw/articles/soft/1364069.htm手机版:https://m.cnbeta.com.tw/view/1364069.htm

封面图片

锐龙7000被指AVX512不满血:Intel 6年前的14nm就做到了

锐龙7000被指AVX512不满血:Intel6年前的14nm就做到了AMD昨天发布的锐龙7000处理器中,不仅升级架构、性能大涨,同时还有一个新技术值得关注,那就是支持了AVX512,这是Intel多年前开发的高性能加速指令集,软件优化之后可以大幅提升性能。在发布会上,AMD介绍了锐龙7000在支持AVX512之后在AI及HPC上的性能提升,其中FP32性能提升30%以上,Int8性能则可以提升150%,效果还是很明显的。不过AMD支持了AVX512指令集之后,依然引来一些人的吐槽,推上的大[email protected]提到了锐龙7000的AVX512并不是满血的,没有完整支持,而Intel早在2016年的14nm处理器上就实现了。此外,他还指出锐龙7000的AVX512执行每个指令需要2个周期,因此性能是减半的。不过他这番给锐龙7000挑刺也引来其他网友的反击,有人解释了锐龙7000的AVX512运作方式,但更多的网友则是表示Intel就算当年就支持了AVX512,现在也砍了,因为12代酷睿上就封杀了AVX512支持。这件事我们之前也报道稿,其实12代酷睿的性能核P是支持AVX512的,但是效能核E核不支持,因此Intel后期通过BIOS等手段禁用了AVX512支持。现在AMD倒是在桌面处理器中实现了AVX512的支持,即便不是完整的支持,但对大部分消费级用户来说也够用了,前不久基准测试软件Y-Cruncher的开发者就确认了会在这个软件中支持AVX512,未来锐龙7000处理器在这个项目中的跑分显然会有优势。PC版:https://www.cnbeta.com/articles/soft/1310701.htm手机版:https://m.cnbeta.com/view/1310701.htm

封面图片

Opera浏览器开发商宣称其最新的引擎优化使处理速度提高了16%

Opera浏览器开发商宣称其最新的引擎优化使处理速度提高了16%Opera表示,现在该应用程序在渲染网页和处理请求时速度提高了16%,在需要处理图形时也提高了14%。该公司解释说,它专注于三个主要领域以使Opera更快,即构建优化、链接时间优化和引擎设置调整。"我们已经启用了最大的链接时间优化。链接时间优化(LTO)是程序间优化(IPO)的一种形式,其目的是提高包含许多小但频繁使用的功能的程序的性能。"Opera说:"LTO的实现方式使这些优化能够作为一个单一的模块覆盖程序的所有不同部分,从而带来更好的性能。我们在进程外渲染中改进了进程外2D画布光栅化,将所有渲染任务转移到GPU(图形处理单元,也称为你的显卡)。这有助于减轻CPU的负荷,从而使你的系统运行得更顺畅。"为了衡量所有这些优化的影响,Opera通过Speedeter和Motionmark进行了测试,这两项基准测试证明,所有的工作都设法使浏览器的速度明显加快。更快的浏览器已经对所有用户开放,所以确保你运行的是最新版本的应用程序,以便从速度升级中受益。...PC版:https://www.cnbeta.com.tw/articles/soft/1337929.htm手机版:https://m.cnbeta.com.tw/view/1337929.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人