私人自托管大型语言模型:运行经验分享与注意事项

私人自托管大型语言模型:运行经验分享与注意事项 最近半年大型语言模型非常火爆,笔者本人循着开源精神,试着搭建过自托管(self-host)大模型,也踩过不少坑,现在来分享一下经验。 1. 最容易/成熟的选择: llama的,之前还需要申请llama的模型访问权限后才能加载他们的增量(类似于需要有stable diffusion 模型才能加载LoRa),但是是由于llama模型的到处都是了, 所以现在他们直接放出了所有权重可以直接部署。(而且脚本都给你写好了。 2.如何部署: 7B的模型需要14GVRAM,13B需要28-30VRAM(28G可以加载模型,一推理就会oom),而最新的33B模型需要至少80G VRAM进行部署。同时,多GPU不能分担显存需求,除非是裸机级别的NVlink(VPS因为不保证你租到的是相邻两个有NVlink的GPU,可能部署没问题,但是一进行推理就会炸显存,因为pcl express带宽不够)。 那么最好的选择是Vultr,他们是少数几家有80G 级别的A100商家,而且能按小时付费,价格是Azure之类的1/2一下。 但是要注意的是,他们家默认credit limit是$1,000/mo 但是A100价格是$1,750/mo,尽管按小时计费,但是因为月度credit limit不够,会直接开不出来,需要正常使用他们家其他服务几个月后,才能申请增加额度。(本人是几年的老用户,来回发了4-5份工单才同意增额的)。 但是如果只是体验一下13B的model的话,可以租用半个GPU(40G VRAM,够用). 3.进一步省钱的办法: 看好需要VRAM额度,租用1/2个或1/3个GPU足以。 同时善用他们家的快照功能,如果你不熟悉linux命令的话,可以先租用一个50-100G SSD的CPU VPS (取决于模型大小)(每个小时只要 $0.04-0.06,比GPU服务器便宜一个数量级),部署好后不启动,拍摄快照,再从快照还原到GPU服务器。(但是要注意拍摄快照与还原均需大约一个小时,如果你熟悉linux命令,你大约可以在30分钟内部署完成,快照反而会多花钱)。(注意记录下一开始的root密码,快照会还原原来的root密码,但不显示)。 5.模型感觉怎么样? 尽管宣传比肩ChartGPT,但是其实比ChartGPT差多了(大约有微软小冰的水平?)比如我蓄意给予错误的指令(“请告诉我有关阿里巴巴森林公园的情况”,他开始回答“阿里巴巴森林公园是一个风景秀丽,环境优美。。。。。。” 换成英文也得到类似的结果 "Please tell me something about Tencent National park" 也回答了类似的结果,而ChartGPT会质疑阿里巴巴是公司而非森林公园的名字)。(毕竟ChartGPT宣传是175B,和13B差差不多10倍) 6.最后: 美国有传闻要禁止中国公司或公民在外国租用高端计算卡以绕过显卡禁令,尚不知是否会波及类似用例(因为只是单显卡,未进行互联,而A800砍的是互联能力)。希望不会吧。

相关推荐

封面图片

中文LLaMA-2 & Alpaca-2大语言模型 ()

中文LLaMA-2 & Alpaca-2大语言模型 () 本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。 这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。 本项目主要内容: 针对Llama-2模型增加了新版中文词表,开源了中文LLaMA-2和Alpaca-2大模型 了预训练脚本、开源指令精调脚本,用户可根据需要进一步训练模型 使用个人电脑的CPU/GPU在本地快速进行大模型仿真和部署体验 支持Transformers , llama.cpp , text- Generation-webui , LangChain , vLLM等LLaMA生态 目前已开源的模型:Chinese-LLaMA-2-7B, Chinese-Alpaca-2-7B

封面图片

苹果取得技术突破:有望在 iPhone 上运行大型语言模型

苹果取得技术突破:有望在 iPhone 上运行大型语言模型 IT之家消息:苹果的人工智能研究人员表示,他们已取得一项重大突破,通过一种创新的闪存利用技术,成功地在内存有限的苹果设备上部署了大型语言模型(LLM)。这一成果有望让更强大的 Siri、实时语言翻译以及融入摄影和增强现实的尖端 AI 功能登陆未来 iPhone。|

封面图片

,一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目

,一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目 使用Llama 2 (70B),Falcon (180B),BLOOM (176B)(或其衍生版本)生成文本,并针对任务进行微调,可使用消费级GPU或Google Colab。 你可以加载模型的一小部分,然后加入一个网络,由其他人提供其余部分。Llama 2 (70B)的单批量推理速度可达6个标记/秒,Falcon(180B)的单批量推理速度可达4个标记/秒,足以用于聊天机器人和交互应用程序。

封面图片

OpenAI 即将发布一款全新的开源大型语言模型

OpenAI 即将发布一款全新的开源大型语言模型 The Information 引用了一位了解该计划的人士的话说,OpenAI 正面临着来自开源AI模型的激烈竞争,例如 Meta 的 LLaMA 与它的衍生模型,OpenAI 目前正准备向公众发布一款全新的开源语言模型。报告还称,OpenAI 不太可能发布与 GPT-4 和 GPT-3.5 竞争的模型。

封面图片

现在可以在笔记本电脑、手机和 Raspberry Pi 上运行 GPT-3 级别的 AI 模型

现在可以在笔记本电脑、手机和 Raspberry Pi 上运行 GPT-3 级别的 AI 模型 通常,运行 GPT-3 需要多个数据中心级A100 GPU(此外,GPT-3 的权重不公开),但 LLaMA 引起了轰动,因为它可以在单个强大的消费类 GPU 上运行。现在,通过使用一种称为量化的技术来减小模型大小的优化,LLaMA 可以在 M1 Mac 或较小的 Nvidia 消费者 GPU 上运行。 周五,一位名叫 Georgi Gerganov 的软件开发人员创建了一个名为“”的工具,可以在 Mac 笔记本电脑本地运行 Meta 的新 GPT-3 类 AI 大型语言模型LLaMA 。此后不久,人们也想出了如何在 。然后有人展示了它在 Pixel 6 手机上运行,接下来是(尽管运行速度非常慢)。 如果这种情况持续下去,我们可能会在不知不觉中看到一个口袋大小的ChatGPT 竞争对手。 在撰写本文时,在 Mac 上运行 LLaMA 仍然是一项相当技术性的练习。您必须安装 Python 和 Xcode 并熟悉在命令行上工作。威利森为任何想尝试的人提供了很好的。但随着开发人员继续编写代码,这种情况可能很快就会改变。 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

:一个开源引擎,用于微调和提供大型语言模型的服务,是定制和提供LLM的最简单方式

:一个开源引擎,用于微调和提供大型语言模型的服务,是定制和提供LLM的最简单方式 主要特征 适用于你喜爱的模型的即用型 API:部署和服务开源基础模型 - 包括 LLaMA、MPT 和 Falcon。使用 Scale 托管模型或部署到您自己的基础设施。 微调基础模型:根据您自己的数据微调开源基础模型,以优化性能。 优化推理:LLM Engine 提供推理 API,用于流式响应和动态批处理输入,以实现更高的吞吐量和更低的延迟。 开源集成: 使用单个命令部署任何。 即将推出的功能 K8s 安装文档:我们正在努力记录您自己的基础设施上推理和微调功能的安装和维护。目前,我们的文档涵盖了使用我们的客户端库访问 Scale 的托管基础​​设施。 快速冷启动时间:为了防止 GPU 闲置,LLM Engine 在不使用模型时会自动将模型缩放为零,并在几秒钟内扩展,即使对于大型基础模型也是如此。 成本优化:部署人工智能模型比商业模型更便宜,包括冷启动和预热时间。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人