私人自托管大型语言模型:运行经验分享与注意事项

私人自托管大型语言模型:运行经验分享与注意事项 最近半年大型语言模型非常火爆,笔者本人循着开源精神,试着搭建过自托管(self-host)大模型,也踩过不少坑,现在来分享一下经验。 1. 最容易/成熟的选择: llama的,之前还需要申请llama的模型访问权限后才能加载他们的增量(类似于需要有stable diffusion 模型才能加载LoRa),但是是由于llama模型的到处都是了, 所以现在他们直接放出了所有权重可以直接部署。(而且脚本都给你写好了。 2.如何部署: 7B的模型需要14GVRAM,13B需要28-30VRAM(28G可以加载模型,一推理就会oom),而最新的33B模型需要至少80G VRAM进行部署。同时,多GPU不能分担显存需求,除非是裸机级别的NVlink(VPS因为不保证你租到的是相邻两个有NVlink的GPU,可能部署没问题,但是一进行推理就会炸显存,因为pcl express带宽不够)。 那么最好的选择是Vultr,他们是少数几家有80G 级别的A100商家,而且能按小时付费,价格是Azure之类的1/2一下。 但是要注意的是,他们家默认credit limit是$1,000/mo 但是A100价格是$1,750/mo,尽管按小时计费,但是因为月度credit limit不够,会直接开不出来,需要正常使用他们家其他服务几个月后,才能申请增加额度。(本人是几年的老用户,来回发了4-5份工单才同意增额的)。 但是如果只是体验一下13B的model的话,可以租用半个GPU(40G VRAM,够用). 3.进一步省钱的办法: 看好需要VRAM额度,租用1/2个或1/3个GPU足以。 同时善用他们家的快照功能,如果你不熟悉linux命令的话,可以先租用一个50-100G SSD的CPU VPS (取决于模型大小)(每个小时只要 $0.04-0.06,比GPU服务器便宜一个数量级),部署好后不启动,拍摄快照,再从快照还原到GPU服务器。(但是要注意拍摄快照与还原均需大约一个小时,如果你熟悉linux命令,你大约可以在30分钟内部署完成,快照反而会多花钱)。(注意记录下一开始的root密码,快照会还原原来的root密码,但不显示)。 5.模型感觉怎么样? 尽管宣传比肩ChartGPT,但是其实比ChartGPT差多了(大约有微软小冰的水平?)比如我蓄意给予错误的指令(“请告诉我有关阿里巴巴森林公园的情况”,他开始回答“阿里巴巴森林公园是一个风景秀丽,环境优美。。。。。。” 换成英文也得到类似的结果 "Please tell me something about Tencent National park" 也回答了类似的结果,而ChartGPT会质疑阿里巴巴是公司而非森林公园的名字)。(毕竟ChartGPT宣传是175B,和13B差差不多10倍) 6.最后: 美国有传闻要禁止中国公司或公民在外国租用高端计算卡以绕过显卡禁令,尚不知是否会波及类似用例(因为只是单显卡,未进行互联,而A800砍的是互联能力)。希望不会吧。

相关推荐

封面图片

苹果取得技术突破:有望在 iPhone 上运行大型语言模型

苹果取得技术突破:有望在 iPhone 上运行大型语言模型 IT之家消息:苹果的人工智能研究人员表示,他们已取得一项重大突破,通过一种创新的闪存利用技术,成功地在内存有限的苹果设备上部署了大型语言模型(LLM)。这一成果有望让更强大的 Siri、实时语言翻译以及融入摄影和增强现实的尖端 AI 功能登陆未来 iPhone。|

封面图片

,一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目

,一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目 使用Llama 2 (70B),Falcon (180B),BLOOM (176B)(或其衍生版本)生成文本,并针对任务进行微调,可使用消费级GPU或Google Colab。 你可以加载模型的一小部分,然后加入一个网络,由其他人提供其余部分。Llama 2 (70B)的单批量推理速度可达6个标记/秒,Falcon(180B)的单批量推理速度可达4个标记/秒,足以用于聊天机器人和交互应用程序。

封面图片

:一个开源引擎,用于微调和提供大型语言模型的服务,是定制和提供LLM的最简单方式

:一个开源引擎,用于微调和提供大型语言模型的服务,是定制和提供LLM的最简单方式 主要特征 适用于你喜爱的模型的即用型 API:部署和服务开源基础模型 - 包括 LLaMA、MPT 和 Falcon。使用 Scale 托管模型或部署到您自己的基础设施。 微调基础模型:根据您自己的数据微调开源基础模型,以优化性能。 优化推理:LLM Engine 提供推理 API,用于流式响应和动态批处理输入,以实现更高的吞吐量和更低的延迟。 开源集成: 使用单个命令部署任何。 即将推出的功能 K8s 安装文档:我们正在努力记录您自己的基础设施上推理和微调功能的安装和维护。目前,我们的文档涵盖了使用我们的客户端库访问 Scale 的托管基础​​设施。 快速冷启动时间:为了防止 GPU 闲置,LLM Engine 在不使用模型时会自动将模型缩放为零,并在几秒钟内扩展,即使对于大型基础模型也是如此。 成本优化:部署人工智能模型比商业模型更便宜,包括冷启动和预热时间。

封面图片

上周,我们从彭博社获悉,,以便合作伙伴OpenAI可以训练必应AI聊天机器人和ChatGPT背后的大型语言模型(LLMs)。

上周,我们从彭博社获悉,,以便合作伙伴OpenAI可以训练必应AI聊天机器人和ChatGPT背后的大型语言模型(LLMs)。 没有为自己的LLM项目获得所有资金或硬件的空间?英伟达的DGX云也试图出售远程网络访问。 今天,该公司在2023年GPU技术大会上宣布,该服务将租用其DGX服务器套件的虚拟版本,每个服务器盒包含8个英伟达H100或A100 GPU和640GB内存。该服务包括可扩展到32,000个gpu、存储、软件的互连,以及“直接访问英伟达AI专家,他们会优化您的代码”,A100 GPU的起价为每月36,999美元。 当然,如果你直接购买同样的硬件,一台DGX服务器的价格可能会超过20万美元,这还不包括微软等公司所说的他们围绕该技术建立工作数据中心所做的努力。 甚至有可能你将借用的一些图形处理器正是微软用来帮助训练OpenAI模型的图形处理器微软Azure是将托管DGX云的小组之一。然而,英伟达表示,客户将获得租用gpu的“全职保留访问权限”,无需与任何人共享。此外,甲骨文将是第一个合作伙伴,微软将“下个季度”加入,Google Cloud也将“很快”托管该平台。 标签: #Nvidia #DGX #AI #GPT 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

#关于缅甸多个城市发布军管的注意事项:

#关于缅甸多个城市发布军管的注意事项: 目前包括木姐跟腊戌很多城市都发布戒严命令 实行了军事管理了,大家可能对这一道命令有一些误解 觉得除了宵禁之外没有其他变化 实际上变化很大,发布了戒严命令后 国防军能够获取更多的权利空间 就比如之前怀疑一个地方藏有叛军 但是没有在核实好的情况下是不能贸然行动需要走一些程序 但是现在如果产生怀疑的话 可以采取一定的行动 比如说 从最小的实行抓捕 再到最后的火力打击 这些是不需要负刑事责任的 。 在戒严的情况下 大家还是低调一些不管自己有什么关系 关系有多硬都不行 都已配合国防军为主 不然发生什么纠纷的话 他们可以直接开枪处决的。然后大家尽量不要靠近关于军事的堡垒或者军车军人,不要在军人行动的路上打电话 别人现在是有权利突突突呢 怀疑你是间谍就直接开枪了,更重要的是不要去议论关于战事的东西 手机里面尽量不要保存关于军事的照片。 欢迎订阅东南亚大事件频道 t.me/+bSG_NNJH-_83MTRl 欢迎投稿爆料: @kaidilake

封面图片

:在本地启动并运行大语言模型 | #工具

:在本地启动并运行大语言模型 | #工具 Ollama 是一款命令行工具,可在 macOS 和 Linux 上本地运行 Llama 2、Code Llama 和其他模型。适用于 macOS 和 Linux,并计划支持 Windows。 Ollama 目前支持近二十多个语言模型系列,每个模型系列都有许多可用的 "tags"。 Tags 是模型的变体,这些模型使用不同的微调方法以不同的规模进行训练,并以不同的级别进行量化,以便在本地良好运行。量化级别越高,模型越精确,但运行速度越慢,所需的内存也越大。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人