LLaMA 在 CPU 上的运行速度显著改进

LLaMA在CPU上的运行速度显著改进大模型如LLaMA通常需要高端GPU才能流畅运行。Mozilla支持的项目旨在本地运行大模型。开发者刚刚为llamafile编写了84个新的矩阵乘法内核,显著改进了CPU运行性能,让普通CPU流畅运行大模型成为可能。ARMv8.2+(如RaspberryPi5)、英特尔CPU以及支持AVX512指令集的AMDZen4CPU上的运行速度增幅最为突出。来源,频道:@kejiqu群组:@kejiquchat

相关推荐

封面图片

迄今运行速度最快 AI 芯片诞生

迄今运行速度最快AI芯片诞生据美国趣味科学网站14日报道,美国一家芯片初创企业推出了全新的5纳米级“晶圆级引擎3”(WSE-3)芯片。该公司官网称,这是目前世界上运行速度最快的AI芯片,将此前纪录提高了1倍。WSE-3拥有4万亿个晶体管,也使其成为迄今最大的计算机芯片,专门用于训练大型AI模型,未来也有望用于目前正在建设中的“秃鹰银河3号”AI超级计算机。

封面图片

Ollama:在本地启动并运行大语言模型 | #工具

:在本地启动并运行大语言模型#工具Ollama是一款命令行工具,可在macOS和Linux上本地运行Llama2、CodeLlama和其他模型。适用于macOS和Linux,并计划支持Windows。Ollama目前支持近二十多个语言模型系列,每个模型系列都有许多可用的"tags"。Tags是模型的变体,这些模型使用不同的微调方法以不同的规模进行训练,并以不同的级别进行量化,以便在本地良好运行。量化级别越高,模型越精确,但运行速度越慢,所需的内存也越大。

封面图片

高通与Meta合作优化Llama 3大语言模型在骁龙终端的运行

高通与Meta合作优化Llama3大语言模型在骁龙终端的运行Meta公司推出了下一代大语言模型Llama3,该模型有两种版本:80亿参数和700亿参数,被宣称为最强大的开源大语言模型。高通公司宣布将支持Llama3在骁龙终端上的运行,这包括智能手机、PC、VR/AR头显和汽车等设备。双方合作的目标是优化Llama3在这些终端上的执行,以提升响应能力、增强隐私性和可靠性,并为用户带来更加个性化的体验。开发者将能够利用高通AIHub中的资源和工具,以实现在骁龙平台上的优化运行,缩短产品上市时间并充分发挥终端侧AI的优势。关注频道:@TestFlightCN频道投稿:@TNSubmBot

封面图片

中文LLaMA-2 & Alpaca-2大语言模型 (Chinese LLaMA-2 & Alpaca-2 LLMs)

中文LLaMA-2&Alpaca-2大语言模型()本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。本项目主要内容:针对Llama-2模型增加了新版中文词表,开源了中文LLaMA-2和Alpaca-2大模型了预训练脚本、开源指令精调脚本,用户可根据需要进一步训练模型使用个人电脑的CPU/GPU在本地快速进行大模型仿真和部署体验支持Transformers,llama.cpp,text-Generation-webui,LangChain,vLLM等LLaMA生态目前已开源的模型:Chinese-LLaMA-2-7B,Chinese-Alpaca-2-7B

封面图片

Petals,一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目

,一个可以让多人协作运行Llama和BLOOM等大型语言模型的项目使用Llama2(70B),Falcon(180B),BLOOM(176B)(或其衍生版本)生成文本,并针对任务进行微调,可使用消费级GPU或GoogleColab。你可以加载模型的一小部分,然后加入一个网络,由其他人提供其余部分。Llama2(70B)的单批量推理速度可达6个标记/秒,Falcon(180B)的单批量推理速度可达4个标记/秒,足以用于聊天机器人和交互应用程序。

封面图片

【英伟达推出有2080亿晶体管的新AI处理器,运行速度可提高数倍】

【英伟达推出有2080亿晶体管的新AI处理器,运行速度可提高数倍】英伟达CEO黄仁勋展示了旨在巩固该公司在人工智能计算领域主导地位的新芯片。该公司在加利福尼亚州圣何塞举行的GTC大会上表示,名为Blackwell的新处理器在处理支持人工智能的模型方面可以将速度提高数倍。这包括被称为训练阶段的技术开发过程和称为推理阶段的技术运行过程。由2080亿个晶体管构成的Blackwell芯片将成为#亚马逊、微软、AlphabetInc.旗下#谷歌、甲骨文等全球最大数据中心运营商部署的新计算机和其他产品的基石。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人