OPENAI 好像又在悄悄改东西：免费用户获得的试用 API 额度，调用次数原本是 30 次 / 分钟，后来调整为 20 次 /

OPENAI 好像又在悄悄改东西：免费用户获得的试用 API 额度，调用次数原本是 30 次 / 分钟，后来调整为 20 次 / 分钟，现在变成了 3 次 / 分钟，也就是说 1 分钟内最多发出 3 次请求，超过就会被限制直到满 1 分钟。蓝点网昨天晚上在测试 MacGPT 时遇到了这个问题，小号的免费试用额度还没有过期，今天搜索时发现不只我一个人遇到了，调用时出现如下提示：（组织中的 default-gpt-3.5-turbo 已达到每分钟请求的速率限制。限制：3 / 分钟。请在 20 秒后重试。如果问题仍然存在，请联系 *。请向您的帐户添加付款方式以提高您的费率限制访问 * 添加付款方式。）蓝点网在之前的测试中也遇到过类似情况，不过当时是 Limit: 20 /min，不知道 OPENAI 什么时候修改的 API 调用限制。要解除该限制也非常简单，按 OPENAI 提示绑定付款方式后即可提高调用限制，但没注明绑定后调用限制会改成多少对了，免费试用用户现在除了 3 次请求 / 分钟外，还有个 token 数量限制，每分钟最多发送 4 万个 tokens。标签: #OpenAI #API #限速频道: @GodlyNews1 投稿: @GodlyNewsBot

在Telegram中查看

相关推荐

openAI开发者大会总结：自定义GPT发布，API升级多模态，成本进一步降低

openAI开发者大会总结：自定义GPT发布，API升级多模态，成本进一步降低自定义GPT：GPT仅需3分钟便能创造一个属于自己的gpt，可以根据上传的内容，专业性的回答相关联内容，可以面向任何人开放，GPT开发者可以像IOS开发者一样，生成各种自定义的GPT，并通过这些GPT赚取利润，openAI未来还将上线GPTs商店，帮助开发者共创价值。 API升级多模态：现有的GPT-4 API升级为GPT-4 Turbo，包含了全新的6项更新，分别是：上下文窗口提高到128k(相当于300页书籍)；更多控制；多模态视觉、DALL-E 3和语音API一起开放；GPT-4微调开放；双倍GPTR-4调用速率限制开放。此外全新Assistants API，包含了检索、代码解释器等新功能。成本降低：GPT-4 Turbo输入降价到原来的1/3，为1美分每千token，输出降价到原来的1/2，为3美分每千token，同时不再设置上下文长度区分，统一128k，代码解释器按绘画次数收费，每次三美分，检索则根据容量和天数收费。来源：

Google宣布推出Gemini API，为开发者和企业提供了全新的人工智能产品。这一API将使开发者能够构建基于Gemini

Google宣布推出Gemini API，为开发者和企业提供了全新的人工智能产品。这一API将使开发者能够构建基于Gemini Pro的应用程序和解决方案，进一步推动人工智能的发展和应用。 Gemini是Google迄今为止最大、能力最强大的人工智能模型，也是Google在使人工智能更加便捷实用的道路上迈出的重要一步。Gemini分为三个版本：Ultra、Pro和Nano。目前，Gemini已经在Google的产品中得到应用，其中Gemini Nano已经在Android系统上推出，并首次应用于Pixel 8 Pro手机，而Gemini Pro则针对Bard进行了专门的优化。现在，开发者和企业可以通过Gemini API获得Gemini Pro的使用权限，以便根据自身需求构建应用程序和解决方案。Google将根据用户的反馈进一步优化和改进Gemini Pro，以确保其能够满足各类需求。 - Gemini Pro在研究基准测试中表现优异，超过了其他同等规模模型的性能。 - 当前版本的Gemini Pro针对文本提供了32K的上下文窗口，未来版本将支持更大的上下文窗口。 - 开发者可以免费使用Gemini Pro，但有一定的使用限制，并且将来会提供具有竞争力的定价方案。 - Gemini Pro具备多种功能，包括函数调用、嵌入、语义检索、自定义知识基础和聊天功能。 - Gemini Pro支持全球180多个国家和地区的38种语言。 Gemini Pro目前支持将文本作为输入并生成文本作为输出。此外，Google还提供了专门针对Gemini Pro Vision多模态的端点，支持文本和图像作为输入，生成文本作为输出。为了帮助开发者构建应用程序，Gemini Pro提供了多种SDK，支持在任何地方运行的应用程序开发，包括Python、Android（Kotlin）、Node.js、Swift和JavaScript。除了Gemini API，Google还推出了Google AI Studio开发者工具，该工具是一个免费的基于Web的开发者工具，能够帮助开发者快速构建提示并获取API密钥用于应用程序开发。开发者可以使用Google帐号登录Google AI Studio，并利用免费配额进行开发，该配额允许每分钟发起60个请求，比其他免费提供的配额高出20倍。 via 匿名标签: #Google #AI #Gemini 频道: @GodlyNews1 投稿: @GodlyNewsBot

很多原文好书一直没有中译本，自己的英语阅读速度又实在是着急，gpt3.5 的 api 放出来的周末就写了个脚本翻译 epub，效

很多原文好书一直没有中译本，自己的英语阅读速度又实在是着急，gpt3.5 的 api 放出来的周末就写了个脚本翻译 epub，效果还行，身边的朋友也想用，但苦于没有 openai 的 api，于是索性和小伙伴花了 3 天时间做了个原文书翻译产品: 「风声雨声」重点解决几个痛点: 1. 资源搜索，整合了好用的 zlib 镜像； 2. 翻译速度和稳定性，openai 对未绑卡 api 限速 10s 一次请求，基本上一本书翻译完动辄 4 个小时。这次发动美国的朋友搞了一堆绑卡 api，用队列来确保任务稳定性，把一本书的翻译速度优化到 30 分钟左右。关于收费: gpt 的 token 计费是输入输出一起算，我翻译一本特德·姜的《你一生的故事》，500kb 的书花了 2.4 美元，最恶心的是每个绑卡 api 月限额 120 美元，也就是一个绑卡 api 一个月翻译 60 本书就没法用了，所以还是设了收费，每个月估计不到千本的产能吧。后续会上线免费自助版本，有 api 的朋友可以自取。整个过程中，没有美国支付卡实在太难受，盘了下之前做券商的资源，可以在国内开美国的借记卡，不用像 depay 那样走 trc 的u，先做个 early access 调查，有需求的同学可以填下:

Devin第一手使用体验：完成度很高但要替代程序员还很远

Devin第一手使用体验：完成度很高但要替代程序员还很远在演示中，Devin 几乎已经可以独立完成很多人类程序员需要大量时间才能完成的工作，效果一点不比普通程序员差。但是，产品能力的边界在哪里，实际体验和演示时候有差距，还得看上手实测之后的效果。这位斯坦福的小哥在 Devin 发布的第一时间就联系了团队，获得了第一手体验的资格。他让 Devin 帮它做了几个难度不一的项目，录制了一个视频，在推上写下了自己的使用感受。首先是让 Devin 做一个用 API 获取股票价格的软件：下一个任务是让 Devin 做一个可以让普通用户直接与大模型下棋的网站。需求复杂的编程任务还搞不定用户下一步棋，系统会翻译成提示词给 GPT-4，然后 GPT-4 进行回复，然后回复再被转换为反映在棋盘上的具体某一步棋。按照小哥的要求，系统需要由相当多的部件组成。他个人最为关注在这个系统的开发过程中，Devin 能不能做到以下几点：知道如何准确地使用 GPT-4 API，因为大多数 LLM 实际上并不知道如何使用，并且 API 的调用存在版本冲突。正确地请求 API 密钥并安全地处理。处理包错误。了解如何提示 LLM 下棋并能精确地返回提示词。令小哥想不到的是，Devin 不仅要求小哥提供 API 密钥，而且在试用过程中还可以正确地保护它。不过，Devin 目前反馈速度还相当慢，小哥推测是因为后台发生的代理提示远远比要看到的要多得多。从小哥发起请求开始，它花了大约 19 分钟才询问 API 密钥。小哥猜测，如果延迟是由于他们在后台运行大量提示造成的，那么延迟应该会随着时间的推移而加快。因为他们以后可以访问专用 GPU 或与 Claude 或 OpenAI 合作降低延迟（估计是 GPT-4 或 Claude Opus）。Devin 首先制定了一个规划。在右上角，用户可以切换“跟随”状态，这样用户可以将屏幕自动移动到#Devin 当前激活了的选项卡上。小哥没有打开跟随状态，因为他希望随时观察各个位置的变化。规划器会随时保持针对当前任务的更新状态。Shell 看起来和普通的 Shell 没什么区别，但用起来真的很有趣！Devin 在工作过程中会打开多个 shell，在 shell 的底部，用户可以拖动蓝色滑块来往前查看 Devin 编写的命令。下图是它当在尝试调试棋盘未渲染的内容。与此同时，小哥要求它再执行一个数据分析的任务。小哥让 Devin 去“创建一张过去五十年南极洲海水温度的地图”。对于这个请求，小哥觉得有两个方面可能很具有挑战性：处理空间数据绘图 / 可视化。知道在哪里下载数据，而且了解如何使用数据源，因为地理空间数据处理起来很麻烦。Devin 能像一个优秀的程序员一样聪明地阅读自述文件，并且还执行一些基本的 EDA 来理解数据结构。数据居然是一个 ascii 文件，小哥觉得有点奇怪。小哥单击对话“调试 Python 脚本...”中的其中一个步骤时，它会打开与该步骤相关的代码库部分，因此可以跟踪某一个具体时间点发生的情况。小哥比较担心的是，如果不是必须要询问 API 密钥，Devin 似乎会不停地编码停不下来。所以他试了试是否可以更改他之前提出的请求或指定其他内容，中断 Devin 的编码过程。因为对于大部分用户在编码时，都有可能会改变主意或者有一些新的东西想要添加进系统之中，能够处理这种情况是很有必要的。这是编码过程中的截图：浏览器界面的呈现方式如下：然后小哥又提了针对数据可视化的任务又提了一个要求，让系统将高温设置为蓝色，低温设置为红色。为了不中断编码的过程，似乎 Devin 又开启了一个工作线程来记录小哥的临时要求。最终，Devin 将 App 部署到了 Netlify 上了，一个应用已经上线了。网页的链接： Bug 的。因为小哥要求的是南极洲的温度记录，似乎对于 Devin 来说它理解起来有些障碍。于是小哥把要求显示的位置改为了北美。总结小哥没有给出 Devin 修改了 Bug 的结果，只是初步总结了用 Devin 开发的第一个网站的使用体验。先说优点：Devin 产品化做得很好，他给人的使用体验是一个完整的产品而不是只是一个简单的对话框。AI 是系统最关键的部分，但支撑 AI 功能的产品化的结构是 Devin 的亮点。Devin 能够完成自动部署，API 密钥保护，随时修改和添加需求等等非常好的各种功能。产品的完成度已经非常高了，远远超过了一般的演示 Demo。再说缺点：Devin 的反应还很慢，当然小哥也说，因为他用的是 1M 的 Starlink 来上网，所以反应慢很有可能是他自己的原因。其次就是还不能允许用户直接自己编辑代码，而且也没法协作完成。当然，最初那个下棋的应用，难住了 Devin，最终没有完成部署。而那个数据可视化的任务，似乎也有些 Bug。最终，小哥用 Devin 做了一个 chrome 插件，可以帮助用户把 Github repo 转化成 Claude prompt。插件下载地址： Devin 的可视化项目的结果只做出了一个有 Bug 的网页。看样子 Devin 本质上还只是一个可以上网的大模型，现在要让他解决实际问题还有难度。参考资料： ... PC版：手机版：

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了基于此，Bard相较于3月份的首次亮相，不仅在表现上有了显著的提升，而且还具备了更多的能力。可以看到，在最新的Gemini Pro-scale加持下，Bard直接蹿升到了排行榜第二名的位置。一口气把之前的两款GPT-4模型斩于马下，甚至和排名第一的GPT-4 Turbo的差距也非常小。虽然Jeff Dean并没有具体阐述“scale”的含义，但从名称上推测，很可能是一个比初代Gemini Pro规模更大的版本。而根据前段时间外媒曝出的内部邮件，搭载Gemini Ultra的Bard Advanced已经全面开放给Google员工试用。也就是说，距离Google最强模型的上线，已经不远了。随着Google对Gemini Pro更新后不断大幅上涨的表现，也让所有人对完全体Gemini Ultra的能力有了更多的期待。不过，新推出的Bard目前只接受了约3,000次评价，而GPT-4的评价次数已高达30,000次。因此，这个结果后续很可能还会发生变动。但不管怎样，这对于Google来说是一项令人瞩目的成就，也让人对即将发布的、预期将超过Gemini Pro-Scale性能的最强AI模型Gemini Ultra充满期待。GoogleBard超越GPT-4跃居第二简单介绍一下，这个由UC伯克利主导，CMU，UCSD等顶级高校共同参与创建的聊天机器人竞技场“Chatbot Arena”，是学术圈内一个很权威的大模型对话能力排行榜。榜单通过类似Moba游戏中的“排位赛”机制，让各家大模型通过PvP的方式来排出性能高低。期间，用户会与模型（不知道具体型号）进行互动，并选择他们更喜欢的回答。而这些投票将会决定模型在排行榜上的名次。这种方式能够有效地避免很多PvE基准测试中可能出现的，通过“刷题”来提高成绩的问题，被业界认为是一个比较客观的大模型能力排行榜。为了便于区分，LMSYS Org指出，目前Gemini Pro市面上总共有3个版本：- Gemini Pro API：用户可以通过Google云的Vertex AI API进行访问- Gemini Pro（dev）API：开发者API可以通过Google AI Studio进行访问- Bard（1月4日更新的Gemini Pro）：是目前唯一可以访问到1月24日更新的Gemini Pro的方式同时，GoogleBard项目的高级总监Sadovsky也透露，排行榜上的Bard和Gemini Pro（API）是两个在微调层面不同的模型，而且Bard可以检索互联网上的信息。在ChatBot Arena中，1月24号更新的Bard由于支持检索互联网，相比于之前放出的Gemini Pro（API）对于实时信息问题的回复提升巨大。从Google的这波更新可以看出，Gemini Pro的潜力似乎远远没有被完全释放，希望Google能再接再厉，对OpenAI一家独大的格局形成挑战。以下是1月14号更新的Bard在ChatBot Arena中的成绩的明细：模型A相对于模型B在所有非平局对决中获胜的比例不同模型组合间对决的次数统计（排除平局情况）通过1000轮随机抽样对Elo评分进行的自举法（Bootstrap）估计在假设等概率抽样和不存在平局的情况下，相对于所有其他模型的平均胜率Elo评分系统Elo等级分制度（Elo rating system）是一种计算玩家相对技能水平的方法，广泛应用在竞技游戏和各类运动当中。其中，Elo评分越高，那么就说明这个玩家越厉害。比如英雄联盟、Dota 2以及吃鸡等等，系统给玩家进行排名的就是这个机制。举个例子，当你在英雄联盟里面打了很多场排位赛后，就会出现一个隐藏分。这个隐藏分不仅决定了你的段位，也决定了你打排位时碰到的对手基本也是类似水平的。而且，这个Elo评分的数值是绝对的。也就是说，当未来加入新的聊天机器人时，我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。具体来说，如果玩家A的评分为Ra，玩家B的评分为Rb，玩家A获胜概率的精确公式（使用以10为底的logistic曲线）为：然后，玩家的评分会在每场对战后线性更新。假设玩家A（评分为Ra）预计获得Ea分，但实际获得Sa分。更新该玩家评分的公式为：网友热议对此，网友提问：现在能够访问的Bard就是这个排名第二的Bard了吗？Google官方回复，是的，而且现在访问的Bard比排行榜的上的Bard还能支持更多的像地图扩展等应用。不过还是有网友吐槽，即使在PvP排行榜上Bard已经取得了很好的成绩，但是对于理解用户需求和解决实际问题的能力，Bard和GPT-4依然还有很大差距。也有网友认为，用能联网的Bard和离线的GPT-4打有失公平。甚至，就这样还没打过……而最有意思的，还要数网友在排行榜中发现的“华点”了：号称是GPT-4最大竞品的Claude居然越更新越弱了。对此，之前有分析认为，Anthropic一直在大力发展的与人类对齐，会严重影响模型的性能。GPT-4 Turbo超长上下文A/B测试有趣的是，这个连Jeff Dean都亲自下场的“刷榜”，正巧就在OpenAI连发5款新模型的第二天。根据OpenAI的介绍，新版GPT-4 Turbogpt-4-0125-preview，不仅大幅改善了模型“偷懒”的情况，而且还极大地提升了代码生成的能力。不过，正如大家对Bard的怀疑，GPT-4这次到底有没有变强也有待验证。对此，AI公司Smol的创始人Shawn Wang，就在超过100k单词的超长上下文中，对比测试了新旧GPT4-Turbo的总结能力。Wang表示，两次测试使用的是完全相同提示词，以及基本相同的语料库。虽然没有严格严格，但每个模型都进行了超过300次的API调用，因此对于总结任务而言，这一结果还是具有一定参考价值的。结果显示，2024年1月的GPT4-Turbo花费了19分钟来生成20,265个单词，相比之下，2023年11月的用16分钟生成了18,884个单词。也就是说，新模型的生成速度大约慢了 18%，且生成文本的长度平均偏长约7%。质量方面：- 2024年1月的模型在主题选择上略有改善，但仍存在问题- 2023年11月的模型会产生更多错误信息- 2024年1月的模型在总结中添加小标题的能力略有提升- 2024年1月的模型出现了一次严重的格式错误，而这在之前是极为罕见的- 2023年11月的模型文本详情更加丰富总体而言，新版GPT4-Turbo在总结这一应用场景上有所退步。左侧：2023年11月；右侧：2024年1月（左右滑动查看全部）OpenAI最后的“开源遗作”两周年不得不说，AI领域的发展过于迅猛，甚至让人对时间的流速都产生了错觉。今天，英伟达高级科学家Jim Fan发推纪念了InstructGPT发布二周年。在这里，OpenAI定义了一套标准流程：预训练 -> 监督式微调 -> RLHF。直到今天，这依然是大家遵循的基本策略（尽管有些许变化，比如DPO）。它不仅仅是大语言模型从学术探索（GPT-3）到转化为具有实际影响力的产品（ChatGPT）的关键转折点，而且也是最后一篇OpenAI详细说明他们如何训练前沿模型的论文。论文地址： InstructGPT在2022年的NeurIPS会议上首次亮相，但它并不是RLHF的发明者。实际上，相关博客将读者引向了OpenAI团队在2017年完成的原始RLHF研究。这项研究最初的目的是解决模拟机器人领域中难以明确定义的任务通过一名人类标注者提供的900个二选一偏好，RLHF让一个简单的“跳跃”机器人在模拟环境中学会了后空翻。论文地址：模型提供了三种规模：1.3B、6B、175B。与旧的、需要复杂提示设计的GPT-3-175B相比，标注者明显更喜欢Instruct-1.3B。微软最知名的“小模型”Phi-1也是1.3B。- InstructGPT展示了如何精彩地呈现研究成果。三个步骤的图表清晰易懂，并且成为AI领域最标志性的图像之一。引言部分直接了当，用粗体突出了8个核心观点。对局限性和偏见的讨论实事求是、坦诚直接。 ... PC版：手机版：

AI芯片黑马Groq一夜爆红：成本推算争议不断前员工现员工互撕

AI芯片黑马Groq一夜爆红：成本推算争议不断前员工现员工互撕连原阿里副总裁贾扬清都公开算账，分析LPU和H100跑大模型的采购和运营成本到底差多少。就在Groq风风火火之际，全球最大AI芯片公司英伟达陷入了一些振荡。今日英伟达官宣将在3月18日-21日举办其年度技术盛会GTC24，但其股市表现却不甚理想。受投资者快速撤股影响，英伟达今日股价降低4.35%，创去年10月以来最大跌幅，一日之间市值缩水780亿美元。▲英伟达太平洋时间2月20日股价出现显著下跌Groq则在社交平台上欢欢喜喜地频繁发文加转发，分享其合作伙伴及网友们对LPU的实测结果及正面评价。一些积极观点认为，LPU将改变运行大语言模型的方式，让本地运行成为主流。根据Groq及一些网友分享的技术演示视频及截图，在LPU上跑大语言模型Mixtral 8x7B-32k，生成速度快到接近甚至超过500tokens/s，远快于公开可用的OpenAI ChatGPT 4。▲输入相同指令，ChatGPT 4生成回答的时间大约1分钟，而在Groq上运行的Mixtral 8x7B-32k只用时11秒。“这是一场革命，不是进化。”Groq对自己的进展信心爆棚。2016年底，GoogleTPU核心团队的十个人中，有八人悄悄组队离职，在加州山景城合伙创办了新公司Groq。接着这家公司就进入神隐状态，直到2019年10月才通过一篇题为《世界，认识Groq》的博客，正式向世界宣告自己的存在。随后“官网喊话”就成了Groq的特色，尤其是近期，Groq接连发文“喊话”马斯克、萨姆·阿尔特曼、扎克伯格等AI大佬。特别是在《嘿萨姆…》文章中，公然“嫌弃”OpenAI的机器人太慢了，并给自家LPU打广告，声称运行大语言模型和其他生成式AI模型的速度是其他AI推理解决方案速度的10倍。现在，Groq继续保持着高调，除了官号积极出面互动外，前员工和现员工还在论坛上“撕”起来了。前员工质疑实际成本问题，现员工则抨击这位前员工离开并创办了一家Groq的竞争对手+没做出“世界最低延迟的大语言模型引擎”+没保证“匹配最便宜的token价格”。面向LPU客户的大语言模型API访问已开放，提供免费10天、100万tokens试用，可从OpenAI API切换。Groq致力于实现最便宜的每token价格，承诺其价格“超过同等上市型号的已发布供应商的任何已公布的每百万tokens价格”。据悉，Groq下一代芯片将于2025年推出，采用三星4nm制程工艺，能效预计相较前一代提高15~20倍，尺寸将变得更大。执行相同任务的芯片数量也将大幅减少。当前Groq需要在9个机架中用576颗芯片才能完成Llama 2 70B推理，而到2025年完成这一任务可能只需在2个机架使用大约100个芯片。01.1秒内写出数百个单词，输出tokens吞吐量最高比竞品快18倍按照Groq的说法，其AI推理芯片能将运行大语言模型的速度提高10倍、能效提高10倍。要体验LPU上的大语言模型，需先创建一个Groq账户。输入提示词“美国最好的披萨是什么？”跑在LPU上的Mixtral模型飞速给出回答，比以前慢慢生成一行一行字的体验好很多。它还支持对生成的答案进行修改。在公开的大语言模型基准测试上，LPU取得了压倒性战绩，运行Meta AI大语言模型Llama 2 70B时，输出tokens吞吐量比所有其他基于云的推理供应商最高要快18倍。对于Time to First Token，其缩短到0.22秒。由于LPU的确定性设计，响应时间是一致的，从而使其API提供最小的可变性范围。这意味着更多的可重复性和更少的围绕潜在延迟问题或缓慢响应的设计工作。AI写作助手创企HyperWriteAI的CEO Matt Shumer评价LPU“快如闪电”，“不到1秒写出数百个单词”，“超过3/4的时间花在搜索上，而非生成”，“大语言模型的运行时间只有几分之一秒”。有网友分享了图像生成的区域提示，并评价“非常印象深刻”。02.贾扬清分析采购和运营成本：比H100服务器贵多了Groq芯片采用14nm制程工艺，搭载230MB片上共享SRAM，内存带宽达80TB/s，FP16算力为188TFLOPS，int8算力为750TOPS。Groq在社交平台上解答了一些常见问题：1、LPU为每token提供很好的价格，因为效率高而且拥有从芯片到系统的堆栈，没有中间商；2、不卖卡/芯片，除非第三方供应商将其出售给研究/科学应用团体，销售内部系统；3、其设计适用于大型系统，而非单卡用户，Groq的优势来自大规模的设计创新。与很多大模型芯片不同的是，Groq的芯片没有HBM、没有CoWoS，因此不受HBM供应短缺的限制。在对Meta Llama 2模型做推理基准测试时，Groq将576个芯片互连。按照此前Groq分享的计算方法，英伟达GPU需要大约10~30J来生成token，而Groq每token大约需要1~3J，也就是说推理速度是原来的10倍，成本是原来的1/10，或者说性价比提高了100倍。Groq拿一台英伟达服务器和8机架Groq设备做对比，并声称非常确定配备576个LPU的Groq系统成本不到英伟达DGX H100的1/10，而后者的运行价格已超过40万美元。等于说Groq系统能实现10倍的速度下，总成本只有1/10，即消耗的空间越多，就越省钱。自称是“Groq超级粉丝”的原阿里副总裁、创办AI infra创企Lepton AI的贾扬清则从另一个角度来考虑性价比，据他分析，与同等算力的英伟达H100服务器成本比较，Groq LPU服务器实际要耗费更高的硬件采购成本和运营成本：1. 每张Groq卡的内存为230MB。对于Llama 70B模型，假设采用int8量化，完全不计推理的内存消耗，则最少需要305张卡。实际上需要的更多，有报道是572张卡，因此我们按照572张卡来计算。2. 每张Groq卡的价格为2万美元，因此购买572张卡的成本为1144万美元。当然，因为销售策略和规模效益，每张卡的价格可能打折，姑且按照目录价来计算。3. 572张卡，每张卡的功耗平均是185W，不考虑外设，总功耗为105.8kW。(注意，实际会更高)4. 现在数据中心平均每千瓦每月的价格在200美元左右，也就是说，每年的电费是105.8 x 200 x 12 = 25.4万美元。（注意，实际会更高）5. 基本上，采用4张H100卡可实现Groq的一半性能，也就是说，一台8卡H100与上面的性能相当。8卡H100的标称最大功率为10kW（实际大概在8-9kW），因此每年电费为2.4万美元或更低一些。6. 今天8卡H100的采购成本约为30万美元。7. 因此，如果运行三年，Groq的硬件采购成本是1144万美元，运营成本是76.2万美元或更高。8卡H100的硬件购买成本是30万美元，运营成本为7.2万美元或更低一些。如果按这个算法，运行3年，Groq的采购成本将是H100的38倍，运营成本将是H100的10倍。贾扬清还在评论区谈道：“老实说，我们对当前的token价格+速度SLA组合感到不适。换句话说，我们对token价格感到满意，但如果并行调用API，我们无法保证速度。”03.存算一体+软件定义硬件：编译器优先，开发速度快，易定制调试Groq联合创始人兼CEO Jonathan Ross曾宣称，相比用英伟达GPU，LPU集群将为大语言推理提供更高吞吐量、更低延迟、更低成本。“12个月内，我们可以部署10万个LPU；24个月内，我们可以部署100万个LPU。”Ross说。▲Groq领导层根据官网信息，LPU代表语言处理单元，是Groq打造的一种新型端到端处理单元，旨在克服大语言模型的计算密度和内存带宽瓶颈，计算能力超过GPU和CPU，能够减少计算每个单词所需时间，更快生成文本序列。消除外部内存瓶颈使得LPU推理引擎能够在大语言模型上提供比GPU好几个数量级的性能。LPU采用了单核心时序指令集计算机架构，无需像传使用高带宽存储（HBM）的GPU那样频繁从内存中加载数据，能有效利用每个时钟周期，降低成本。▲传统GPU内存结构▲Groq芯片内存结构Groq芯片的指令是垂直走向，而数据流向东西流动，利用位置和功能单元相交以执行操作。通过将计算和内存访问解耦，... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人