#阅读自托管 Llama-3 8B-Instruct 大语言模型与 ChatGPT 的成本对比

None

相关推荐

封面图片

【LLaMA模型惨遭泄漏,Meta版ChatGPT被迫「开源」】在与ChatGPT对比进行的各项测试中,LLaMA并没有如想象中

封面图片

私人自托管大型语言模型:运行经验分享与注意事项

私人自托管大型语言模型:运行经验分享与注意事项 最近半年大型语言模型非常火爆,笔者本人循着开源精神,试着搭建过自托管(self-host)大模型,也踩过不少坑,现在来分享一下经验。 1. 最容易/成熟的选择: llama的,之前还需要申请llama的模型访问权限后才能加载他们的增量(类似于需要有stable diffusion 模型才能加载LoRa),但是是由于llama模型的到处都是了, 所以现在他们直接放出了所有权重可以直接部署。(而且脚本都给你写好了。 2.如何部署: 7B的模型需要14GVRAM,13B需要28-30VRAM(28G可以加载模型,一推理就会oom),而最新的33B模型需要至少80G VRAM进行部署。同时,多GPU不能分担显存需求,除非是裸机级别的NVlink(VPS因为不保证你租到的是相邻两个有NVlink的GPU,可能部署没问题,但是一进行推理就会炸显存,因为pcl express带宽不够)。 那么最好的选择是Vultr,他们是少数几家有80G 级别的A100商家,而且能按小时付费,价格是Azure之类的1/2一下。 但是要注意的是,他们家默认credit limit是$1,000/mo 但是A100价格是$1,750/mo,尽管按小时计费,但是因为月度credit limit不够,会直接开不出来,需要正常使用他们家其他服务几个月后,才能申请增加额度。(本人是几年的老用户,来回发了4-5份工单才同意增额的)。 但是如果只是体验一下13B的model的话,可以租用半个GPU(40G VRAM,够用). 3.进一步省钱的办法: 看好需要VRAM额度,租用1/2个或1/3个GPU足以。 同时善用他们家的快照功能,如果你不熟悉linux命令的话,可以先租用一个50-100G SSD的CPU VPS (取决于模型大小)(每个小时只要 $0.04-0.06,比GPU服务器便宜一个数量级),部署好后不启动,拍摄快照,再从快照还原到GPU服务器。(但是要注意拍摄快照与还原均需大约一个小时,如果你熟悉linux命令,你大约可以在30分钟内部署完成,快照反而会多花钱)。(注意记录下一开始的root密码,快照会还原原来的root密码,但不显示)。 5.模型感觉怎么样? 尽管宣传比肩ChartGPT,但是其实比ChartGPT差多了(大约有微软小冰的水平?)比如我蓄意给予错误的指令(“请告诉我有关阿里巴巴森林公园的情况”,他开始回答“阿里巴巴森林公园是一个风景秀丽,环境优美。。。。。。” 换成英文也得到类似的结果 "Please tell me something about Tencent National park" 也回答了类似的结果,而ChartGPT会质疑阿里巴巴是公司而非森林公园的名字)。(毕竟ChartGPT宣传是175B,和13B差差不多10倍) 6.最后: 美国有传闻要禁止中国公司或公民在外国租用高端计算卡以绕过显卡禁令,尚不知是否会波及类似用例(因为只是单显卡,未进行互联,而A800砍的是互联能力)。希望不会吧。

封面图片

[整理] 对 Groq 的 LUP 运行Llama 70B 模型和同等规模英伟达显卡的成本对比,目前成本上相比英伟达没啥优势。

[整理] 对 Groq 的 LUP 运行Llama 70B 模型和同等规模英伟达显卡的成本对比,目前成本上相比英伟达没啥优势。 先说结论由于 LUP 这个卡显存太低,所以运行同样的模型需要的数量比英伟达的 H100 多的多。 成本主要来自于卡的购买成本,比H100 贵 3 倍。运营成本也比 H100 贵很多。 完整解释 这可能是首次对使用 GroqInc 硬件运行 Llama2-70b 的运营成本进行分析。 首先,我必须说我非常欣赏 Groq 的产品。它们性能卓越,潜力巨大。下面的内容仅是展示在与行业领头羊竞争时可能遇到的挑战,但随着时间推移,我对它充满期待。 每张 Groq 卡的内存为 230MB。考虑到 LLaMA 70b 模型,假设采用 int8 量化技术(一种降低数据精度以减少存储需求的技术)并完全忽略在模型推理(即模型执行过程中的数据处理)时的内存消耗,至少需要 305 张这样的卡。但实际上,根据报告,需要的卡数多达 572 张,因此我们的计算将基于这个数字。 每张 Groq 卡的价格是 $20,000,因此购买 572 张卡的总成本为 $11.44 百万。当然,考虑到销售策略和大规模购买的优惠,实际价格可能会更低,但我们暂时按照标价来计算。 对于 572 张卡片,平均每张卡的功耗为 185W,总功耗达到 105.8kW,这还不包括附加的外围设备。(实际的能耗可能会更高) 目前,数据中心每千瓦每月的电费平均为 $200,这意味着每年的电费为 105.8 * 200 * 12 = $254,000。 事实上,使用 4 张 H100 卡可以达到 Groq 一半的性能,因此 8 张卡组成的 H100 盒子在性能上大致等同于上述 Groq 配置。一个 8 卡的 H100 盒子的名义最大功率是 10kW(实际上大约在 8-9 kW),因此其年电费约为 $24,000 或略低。 目前,一个 8 卡的 H100 盒子的价格大约为 $300,000。 因此,如果运营三年,Groq 硬件的购买成本是 $114.4 万,运营成本为 $76.2万。而对于一个 8 卡的 H100 盒子,硬件购买成本为 $30 万,运营成本约为 $7.2 万或稍低。 以上数字仅为估算值。如果我有任何重大错误,请不吝指正。 来源:

封面图片

#小众软件Mango – 开源、自托管漫画管理与阅读工具Tags: #在线应用, #linux, #开源, #, #自托管, #

封面图片

Meta发布其最新的语言模型Llama 3

封面图片

ChatGPT/Claude/Cohere等大型语言模型(LLM)的实际效果对比试炼场 |

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人