私人自托管大型语言模型：运行经验分享与注意事项

私人自托管大型语言模型：运行经验分享与注意事项最近半年大型语言模型非常火爆，笔者本人循着开源精神，试着搭建过自托管（self-host）大模型，也踩过不少坑，现在来分享一下经验。1.最容易/成熟的选择：llama的，之前还需要申请llama的模型访问权限后才能加载他们的增量（类似于需要有stablediffusion模型才能加载LoRa），但是是由于llama模型的到处都是了，所以现在他们直接放出了所有权重可以直接部署。（而且脚本都给你写好了。2.如何部署：7B的模型需要14GVRAM，13B需要28-30VRAM（28G可以加载模型，一推理就会oom），而最新的33B模型需要至少80GVRAM进行部署。同时，多GPU不能分担显存需求，除非是裸机级别的NVlink（VPS因为不保证你租到的是相邻两个有NVlink的GPU，可能部署没问题，但是一进行推理就会炸显存，因为pclexpress带宽不够）。那么最好的选择是Vultr，他们是少数几家有80G级别的A100商家，而且能按小时付费，价格是Azure之类的1/2一下。但是要注意的是，他们家默认creditlimit是$1,000/mo但是A100价格是$1,750/mo，尽管按小时计费，但是因为月度creditlimit不够，会直接开不出来，需要正常使用他们家其他服务几个月后，才能申请增加额度。（本人是几年的老用户，来回发了4-5份工单才同意增额的）。但是如果只是体验一下13B的model的话，可以租用半个GPU（40GVRAM，够用）.3.进一步省钱的办法：看好需要VRAM额度，租用1/2个或1/3个GPU足以。同时善用他们家的快照功能，如果你不熟悉linux命令的话，可以先租用一个50-100GSSD的CPUVPS（取决于模型大小）（每个小时只要$0.04-0.06,比GPU服务器便宜一个数量级），部署好后不启动，拍摄快照，再从快照还原到GPU服务器。（但是要注意拍摄快照与还原均需大约一个小时，如果你熟悉linux命令，你大约可以在30分钟内部署完成，快照反而会多花钱）。（注意记录下一开始的root密码，快照会还原原来的root密码，但不显示）。5.模型感觉怎么样？尽管宣传比肩ChartGPT，但是其实比ChartGPT差多了（大约有微软小冰的水平？）比如我蓄意给予错误的指令（“请告诉我有关阿里巴巴森林公园的情况”，他开始回答“阿里巴巴森林公园是一个风景秀丽，环境优美。。。。。。”换成英文也得到类似的结果"PleasetellmesomethingaboutTencentNationalpark"也回答了类似的结果，而ChartGPT会质疑阿里巴巴是公司而非森林公园的名字）。（毕竟ChartGPT宣传是175B，和13B差差不多10倍）6.最后:美国有传闻要禁止中国公司或公民在外国租用高端计算卡以绕过显卡禁令，尚不知是否会波及类似用例（因为只是单显卡，未进行互联，而A800砍的是互联能力）。希望不会吧。

在Telegram中查看

相关推荐

Petals，一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目

，一个可以让多人协作运行Llama和BLOOM等大型语言模型的项目使用Llama2(70B)，Falcon(180B)，BLOOM(176B)（或其衍生版本）生成文本，并针对任务进行微调，可使用消费级GPU或GoogleColab。你可以加载模型的一小部分，然后加入一个网络，由其他人提供其余部分。Llama2（70B）的单批量推理速度可达6个标记/秒，Falcon（180B）的单批量推理速度可达4个标记/秒，足以用于聊天机器人和交互应用程序。

LLM Engine：一个开源引擎，用于微调和提供大型语言模型的服务，是定制和提供LLM的最简单方式

：一个开源引擎，用于微调和提供大型语言模型的服务，是定制和提供LLM的最简单方式主要特征适用于你喜爱的模型的即用型API：部署和服务开源基础模型-包括LLaMA、MPT和Falcon。使用Scale托管模型或部署到您自己的基础设施。微调基础模型：根据您自己的数据微调开源基础模型，以优化性能。优化推理：LLMEngine提供推理API，用于流式响应和动态批处理输入，以实现更高的吞吐量和更低的延迟。开源集成：使用单个命令部署任何。即将推出的功能K8s安装文档：我们正在努力记录您自己的基础设施上推理和微调功能的安装和维护。目前，我们的文档涵盖了使用我们的客户端库访问Scale的托管基础设施。快速冷启动时间：为了防止GPU闲置，LLMEngine在不使用模型时会自动将模型缩放为零，并在几秒钟内扩展，即使对于大型基础模型也是如此。成本优化：部署人工智能模型比商业模型更便宜，包括冷启动和预热时间。

Meta官宣深入AI大战推出先进大型语言模型

Meta官宣深入AI大战推出先进大型语言模型扎克伯格在社交媒体上称，FacebookAIResearch研发的LLaMA是“目前水平最高的”大型语言模型，目标是帮助研究人员推进他们在人工智能（AI）领域的工作。“大型语言模型”（LLM）可以消化大量的文本数据，并推断文本的单词之间的关系。随着计算能力的进步，以及输入数据集与参数空间的不断扩大，LLM的能力也相应提高。目前，LLM已经被证明能高效地执行多种任务，包括文本生成、问题回答、书面材料总结等。扎克伯格称，LLM在自动证明数学定理、预测蛋白质结构等更复杂的方面也有很大的发展前景。值得一提的是，近期大火的ChatGPT就是采用LLM构建的聊天机器人。ChatGPT由GPT3.5提供支持，而GPT3.5是一款基于OpenAI175B参数基础模型训练的LLM，175B是它从训练数据中所学习、沉淀下来的内容。Meta在官网介绍中称，LLaMA有7B、13B、33B和65B四个基础模型，在大多数基准测试中都优于GPT3.5的前身GPT3-175B，而LLaMA-65B可与业内最佳的Chinchilla-70B和PaLM-540B竞争。Meta还宣布，将针对学术研究者共享其模型，正在接受研究人员的申请。与之截然不同的是，Google旗下的DeepMind和OpenAI并不公开训练代码。根据2021年媒体的一份调查显示，AI专家们通常将DeepMind、OpenAI和FAIR（FacebookAIResearch）视为该领域的“前三甲”。去年年底，Meta发布了另一款名为Galactica的模型，但因经常分享偏见和不准确的信息而遭到下架。...PC版：https://www.cnbeta.com.tw/articles/soft/1346305.htm手机版：https://m.cnbeta.com.tw/view/1346305.htm

Ollama：在本地启动并运行大语言模型 | #工具

：在本地启动并运行大语言模型#工具Ollama是一款命令行工具，可在macOS和Linux上本地运行Llama2、CodeLlama和其他模型。适用于macOS和Linux，并计划支持Windows。Ollama目前支持近二十多个语言模型系列，每个模型系列都有许多可用的"tags"。Tags是模型的变体，这些模型使用不同的微调方法以不同的规模进行训练，并以不同的级别进行量化，以便在本地良好运行。量化级别越高，模型越精确，但运行速度越慢，所需的内存也越大。

Meta 新语言模型能运行在单张显卡上

Meta新语言模型能运行在单张显卡上Meta上周宣布了一个新的大语言模型LLaMA-13B，称其参数规模更小但性能强于OpenAI的GPT-3模型，且它能运行在单张显卡上。语言模型的规模在从70亿到650亿参数，而OpenAIGPT-3模型有1750亿个参数。Meta使用CommonCrawl、维基百科和C4等公开数据集训练其模型，它有可能公开其源代码和权重。今天绝大部分最先进的语言模型都没有公开源代码。Meta称LLaMA为其基础模型，它将是未来该公司更先进模型的基础。它的LLaMA-13B模型在BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC和OpenBookQA等标准测试中的表现超过了GPT-3。GPT-3等衍生模型需要数据中心规模的计算能力进行处理，而LLaMA-13B能运行在单张显卡上，为在消费者硬件上实现类似ChatGPT的性能打开了大门。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

新电信等公司拟合资开发电信业大型语言模型

新电信等公司拟合资开发电信业大型语言模型新电信（Singtel）等创办全球电信人工智能联盟（GlobalTelcoAIAlliance,GTAA）的电信公司星期三（6月19日）正式签订协议，将成立一家合资公司，以专门开发及推出多语言的电信业大型语言模型（multilingualTelcoLLM）。联盟的创办者是新电信、德国电信（DeutscheTelekom）、阿联酋科技公司e&集团、SK电讯（SKTelecom）和软银（Softbank）。它们在电信管理论坛（TMForum）活动上签订这个协议。这落实了联盟早前在“2024年世界移动通信大会”（WMC24）上的宣布。如当初宣布，联盟创办者在合资公司持有同等股权。开发这个大型语言模型是要帮助电信公司通过数码助理和其他创新的人工智能解决方案，来改善与客户的互动。五家电信公司在星期三的联合文告指出，合资公司将根据联盟创办者在各自市场的需要，部署创新的人工智能应用程序，使它们能够覆盖50个国家与地区的约13亿客户。这个电信业大型语言模型将使用多种语言，包括韩语、英语、德语和阿拉伯语等。合资公司的成立须获得监管部门的批准。联盟在论坛活动上还展示了这个大型语言模型在电信领域的潜在应用，专注于电话中心和基础设施用例。2024年6月19日6:56PM

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人