前几天那个每秒输出500个Token的项目groq,公开了他们的API,他们的输出速度比顶级运营商快18倍。得益于这个速度,甚至

前几天那个每秒输出500个Token的项目groq,公开了他们的API,他们的输出速度比顶级运营商快18倍。得益于这个速度,甚至实现了完全实时的远程AI对话。 Mixtral, 8x7B SMoE可以达到480 Token/S,价格为100万Token 0.27美元。极限情况下他们用Llama2 7B甚至能实现750 Token/S。 目前他们还提供100万 Token的免费试用。API完全兼容OpenAI API。 这里尝试groq:

相关推荐

封面图片

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU?

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU? 推理速度比GPU快10倍,功耗仅1/10据介绍,Groq的大模型推理芯片是全球首个LPU(Language Processing Unit)方案,是一款基于全新的TSA 架构的Tensor Streaming Processor (TSP) 芯片,旨在提高机器学习和人工智能等计算密集型工作负载的性能。虽然Groq的LPU并没有采用更本高昂的尖端制程工艺,而是选择了14nm制程,但是凭借自研的TSA 架构,Groq LPU 芯片具有高度的并行处理能力,可以同时处理数百万个数据流,并该芯片还集成了230MB容量的SRAM来替代DRAM,以保证内存带宽,其片上内存带宽高达80TB/s。根据官方的数据显示,Groq的LPU芯片的性能表现相当出色,可以提供高达1000 TOPS (Tera Operations Per Second) 的计算能力,并且在某些机器学习模型上的性能表现可以比常规的 GPU 和 TPU 提升10到100倍。Groq表示,基于其LPU芯片的云服务器在Llama2或Mistreal模型在计算和响应速度上远超基于NVIDIA AI GPU的ChatGPT,其每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。由于ChatGPT-3.5主要是基于NVIDIA的GPU,也就是说,Groq LPU芯片的响应速度达到了NVIDIA  GPU的10倍以上。Groq表示,相对于其他云平台厂商的大模型推理性能,基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。另外,在能耗方面,NVIDIAGPU需要大约10到30焦耳才能生成响应中的tokens,而Groq LPU芯片仅需1到3焦耳,在推理速度大幅提升10倍的同时,其能耗成本仅有NVIDIAGPU的十分之一,这等于是性价比提高了100倍。Groq公司在演示中展示了其芯片的强大性能,支持Mistral AI的Mixtral8x7B SMoE,以及Meta的Llama2的7B和70B等多种模型,支持使用4096字节的上下文长度,并可直接体验Demo。不仅如此,Groq还喊话各大公司,扬言在三年内超越NVIDIA。目前该公司的LPU推理芯片在第三方网站上的售价为2万多美元,低于NVIDIA H100的2.5-3万美元。资料显示,Groq 是一家成立于2016年人工智能硬件初创公司,核心团队来源于谷歌最初的张量处理单元(TPU)工程团队。Groq 创始人兼CEO Jonathan Ross是谷歌TPU项目的核心研发人员。该公司硬件工程副总裁Jim Miller 曾是亚马逊云计算服务AWS设计算力硬件的负责人,还曾在英特尔领导了所有 Pentium II 工程。目前该公司筹集了超过 6200 万美元。为何采用大容量SRAM?Groq LPU芯片与大多数其他初创公司和现有的AI处理器有着截然不同的时序指令集计算机(Temporal Instruction Set Computer)架构,它被设计为一个强大的单线程流处理器,配备了专门设计的指令集,旨在利用张量操作和张量移动,使机器学习模型能够更有效地执行。该架构的独特之处在于执行单元、片内的SRAM内存和其他执行单元之间的交互。它无需像使用HBM(高带宽内存)的GPU那样频繁地从内存中加载数据。Groq 的神奇之处不仅在于硬件,还在于软件。软件定义的硬件在这里发挥着重要作用。Groq 的软件将张量流模型或其他深度学习模型编译成独立的指令流,并提前进行高度协调和编排。编排来自编译器。它提前确定并计划整个执行,从而实现非常确定的计算。“这种确定性来自于我们的编译器静态调度所有指令单元的事实。这使我们无需进行任何激进的推测即可公开指令级并行性。芯片上没有分支目标缓冲区或缓存代理,”Groq 的首席架构师 Dennis Abts 解释道。Groq LPU芯片为了追求性能最大化,因此添加了更多SRAM内存和执行块。SRAM全名为“静态随机存取存储器”(Static Random-Access Memory)是随机存取存储器的一种。所谓的“静态”,是指这种存储器只要保持通电,里面储存的数据就可以恒常保持。相对之下,动态随机存取存储器(DRAM)里面所储存的数据则需要周期性地更新。自SRAM推出60多年来,其一直是低延迟和高可靠性应用的首选存储器,事实上,对于 AI/ML 应用来说,SRAM 不仅仅具有其自身的优势。SRAM 对于 AI 至关重要,尤其是嵌入式 SRAM,它是性能最高的存储器,可以将其直接与高密度逻辑核心集成在一起。目前SRAM也是被诸多CPU集成在片内(更靠近CPU计算单元),作为CPU的高速缓存,使得CPU可以更直接、更快速的从SRAM中获取重要的数据,无需去DRAM当中读取。只不过,当前旗舰级CPU当中的SRAM容量最多也仅有几十个MB。Groq之所以选择使用大容量的 SRAM来替代DRAM 内存的原因主要有以下几点:1、SRAM 内存的访问速度比 DRAM 内存快得多,这意味着 LPU 芯片更快速地处理数据,从而提高计算性能。2、SRAM 内存没有 DRAM 内存的刷新延迟,这意味着LPU芯片也可以更高效地处理数据,减少延迟带来的影响。3、SRAM 内存的功耗比 DRAM 内存低,这意味着LPU芯片可以更有效地管理能耗,从而提高效率。但是,对于SRAM来说,其也有着一些劣势:1、面积更大:在逻辑晶体管随着CMOS工艺持续微缩的同时,SRAM的微缩却十分的困难。事实上,早在 20nm时代,SRAM 就无法随着逻辑晶体管的微缩相应地微缩。2、容量小:SRAM 的容量比 DRAM 小得多,这是因为每个bit的数据需要更多的晶体管来存储,再加上SRAM的微缩非常困难,使得相同面积下,SRAM容量远低于DRAM等存储器。这也使得SRAM在面对需要存储大量数据时的应用受到了限制。3、成本高:SRAM 的成本比 DRAM要高得多,再加上相同容量下,SRAM需要更多的晶体管来存储数据,这也使得其成本更高。总的来说,虽然SRAM 在尺寸、容量和成本等方面具有一些劣势,这些劣势限制了其在某些应用中的应用,但是 SRAM 的访问速度比 DRAM 快得多,这使得它在某些计算密集型应用中表现得非常出色。Groq LPU 芯片采用的大容量 SRAM 内存可以提供更高的带宽(高达80TB/s)、更低的功耗和更低的延迟,从而提高机器学习和人工智能等计算密集型工作负载的效率。那么,与目前AI GPU当中所搭载的 HBM 内存相比,Groq LPU 芯片集成的 SRAM 内存又有何优势和劣势呢?Groq LPU 芯片的 SRAM 内存容量虽然有230MB,但是相比之下AI GPU 中的 HBM 容量通常都有数十GB(比如NVIDIA H100,其集成了80GB HBM),这也意味着LPU 芯片可能无法处理更大的数据集和更复杂的模型。相同容量下,SRAM的成本也比HBM更高。不过,与HBM 相比,Groq LPU 芯片的所集成的 SRAM 的仍然有着带宽更快(NVIDIA H100的HBM带宽仅3TB/s)、功耗更低、延迟更低的优势。能否替代NVIDIA H00?虽然Groq公布的数据似乎表明,其LPU芯片的推理速度达到了NVIDIA GPU的10倍以上,并且能耗成本仅是它十分之一,等于是性价比提高了100倍。但是,Groq并且明确指出其比较的是NVIDIA的哪款GPU产品。由于目前NVIDIA最主流的AI GPU是H100,因此,我们就拿NVIDIA H100来与Groq LPU来做比较。由于Groq LPU只有230MB的片上SRAM来作为内存,因此,如果要运行Llama-2 70b模型,即使将Llama 2 70b量化到INT8精度,仍然需要70GB左右的内存。即使完全忽略内存消耗,也需要305张Groq LPU加速卡才够用。如果考虑到内存消耗,可能需要572张Groq LPU加速卡。官方数据显示,Groq LPU的平均功耗为185W,即使不计算外围设备的功耗,572张Groq LPU加速卡的总功耗也高达105.8kW。假设一张Groq LPU加速卡的价格为2万美元,因此,购买572张卡的成本高达1144万美元(规模采购价格应该可以更低)。根据人工智能科学家贾扬清分享的数据显示,目前,数据中心每月每千瓦的平均价格约为20美元,这意味着572张Groq LPU加速卡每年的电费为105.8*200*12=25.4万美元。贾扬清还表示,使用4张NVIDIA H100加速卡就可以实现572张Groq LPU一半的性能,这意味着一个8张H100的服务器的性能大致相当于572张Groq LPU。而8张H100加速卡... PC版: 手机版:

封面图片

英伟达挑战者Groq希望融资3亿美元 估值或超30亿

英伟达挑战者Groq希望融资3亿美元 估值或超30亿 乔纳森·罗斯是谷歌专用芯片TPU(张量处理单元)的共同发明者,他大约在八年前创立了Groq。该公司致力于开发一种既经济又快速的产品,以替代AI行业标杆的英伟达芯片。根据媒体资料,包括Groq和Cerebras在内的近20家AI芯片开发商已共同筹资超过55亿美元。然而,鉴于行业的高难度和昂贵成本,对多数公司而言,成功仍然难以实现。一位消息人士表示,Groq希望在本月底前获得投资者的出资承诺。此前,Groq已从包括Tiger Global Management、D1 Capital Partners以及Lee Fixel的Addition等投资者那里筹集了逾3.67亿美元,公司估值超过10亿美元。尽管Groq尚未确定本轮融资的估值,但一位参与本轮融资的SPV(特殊目的实体)经理向潜在投资者透露,预计公司估值将超过30亿美元。在寻求大额融资或面临不利融资条件时,初创公司常聘请投资银行进行私募。银行家们有时会利用这一机会探索是否可能吸引其他公司的收购兴趣。Groq设计的芯片主要用于AI推理任务,这种芯片用于支持已经部署的人工智能程序的服务器,而不是帮助OpenAI等公司训练新模型。Groq的芯片已经可以运行包括Meta的Llama 3、谷歌Gemma和Mistral的Mixtral在内的多个开源模型,开发者可以自由访问。根据公司内部人士的说法,目前该服务是免费的,但Groq计划从六月开始收费。Groq还计划通过向政府机构和金融公司等大客户销售配备Groq芯片的服务器,以及将其部署在客户自己的数据中心,来实现营收增长。Quora的人工智能助理应用Poe在X平台上的一篇帖子中提到,用户可以在配备Groq芯片的服务器上访问并运行Llama 3模型。这使开发者能够在不同服务器上测试其应用程序,以比较基于不同芯片的速度。此外,Groq还与沙特阿美公司的技术子公司阿美数字,合作在沙特建立一个先进的AI计算中心。Groq的筹资活动已进行数月,与此同时,其一位重要的早期投资者查马斯·帕里哈皮蒂亚(Chamath Palihapitiya)的SocialCapital发生了一起纠纷。据报道,因为未经帕里哈皮蒂亚完全同意便组织了对Groq的SPV投资,帕里哈皮蒂亚在三月解雇了当时Groq董事会的成员,合伙人杰伊·扎韦里(Jay Zaveri)和投资者拉维·塔努库(Ravi Tanuku)。被解雇的Social Capital的前代表声称他们受到了不公正的对待。扎韦里已经离开了董事会,Social Capital暂时由首席财务官史蒂文·特里乌(Steven Trieu)接替他的位置。另外,从LinkedIn的信息看,亚马逊前高管拉朱·古拉巴尼(Raju Gulabani)也在今年年初离开了Groq董事会。此外,Groq在二月宣布将哈佛大学教授扬姆·穆恩(Youngme Moon)加入其董事会。帕里哈皮蒂亚去年在X平台上表示:“Groq可能是你未曾听闻过的最具影响力的AI公司,但他们已在构建全球最快AI硬件上付出了多年努力。”他还提到,在罗斯正式成立公司之前,他就已向其投资。尽管有更多资金的注入,Groq面临的挑战依然艰巨,其目标是让开发者放弃使用他们熟悉的英伟达芯片及其配套软件Cuda。多年来,包括亚马逊、谷歌和微软在内的大公司已经试图开发新型AI服务器芯片,以期让其云客户摆脱对英伟达的依赖,但成效有限。同时,英伟达的一些竞争者也面临困境。据报道,英国人工智能芯片公司Graphcore公司虽然筹集了数亿美元资金,但在遭受重大亏损后,目前正在考虑出售的可能性。(小小) ... PC版: 手机版:

封面图片

AI芯片黑马Groq一夜爆红:成本推算争议不断 前员工现员工互撕

AI芯片黑马Groq一夜爆红:成本推算争议不断 前员工现员工互撕 连原阿里副总裁贾扬清都公开算账,分析LPU和H100跑大模型的采购和运营成本到底差多少。就在Groq风风火火之际,全球最大AI芯片公司英伟达陷入了一些振荡。今日英伟达官宣将在3月18日-21日举办其年度技术盛会GTC24,但其股市表现却不甚理想。受投资者快速撤股影响,英伟达今日股价降低4.35%,创去年10月以来最大跌幅,一日之间市值缩水780亿美元。▲英伟达太平洋时间2月20日股价出现显著下跌Groq则在社交平台上欢欢喜喜地频繁发文加转发,分享其合作伙伴及网友们对LPU的实测结果及正面评价。一些积极观点认为,LPU将改变运行大语言模型的方式,让本地运行成为主流。根据Groq及一些网友分享的技术演示视频及截图,在LPU上跑大语言模型Mixtral 8x7B-32k,生成速度快到接近甚至超过500tokens/s,远快于公开可用的OpenAI ChatGPT 4。▲输入相同指令,ChatGPT 4生成回答的时间大约1分钟,而在Groq上运行的Mixtral 8x7B-32k只用时11秒。“这是一场革命,不是进化。”Groq对自己的进展信心爆棚。2016年底,GoogleTPU核心团队的十个人中,有八人悄悄组队离职,在加州山景城合伙创办了新公司Groq。接着这家公司就进入神隐状态,直到2019年10月才通过一篇题为《世界,认识Groq》的博客,正式向世界宣告自己的存在。随后“官网喊话”就成了Groq的特色,尤其是近期,Groq接连发文“喊话”马斯克、萨姆·阿尔特曼、扎克伯格等AI大佬。特别是在《嘿 萨姆…》文章中,公然“嫌弃”OpenAI的机器人太慢了,并给自家LPU打广告,声称运行大语言模型和其他生成式AI模型的速度是其他AI推理解决方案速度的10倍。现在,Groq继续保持着高调,除了官号积极出面互动外,前员工和现员工还在论坛上“撕”起来了。前员工质疑实际成本问题,现员工则抨击这位前员工离开并创办了一家Groq的竞争对手+没做出“世界最低延迟的大语言模型引擎”+没保证“匹配最便宜的token价格”。面向LPU客户的大语言模型API访问已开放,提供免费10天、100万tokens试用,可从OpenAI API切换。Groq致力于实现最便宜的每token价格,承诺其价格“超过同等上市型号的已发布供应商的任何已公布的每百万tokens价格”。据悉,Groq下一代芯片将于2025年推出,采用三星4nm制程工艺,能效预计相较前一代提高15~20倍,尺寸将变得更大。执行相同任务的芯片数量也将大幅减少。当前Groq需要在9个机架中用576颗芯片才能完成Llama 2 70B推理,而到2025年完成这一任务可能只需在2个机架使用大约100个芯片。01.1秒内写出数百个单词,输出tokens吞吐量最高比竞品快18倍按照Groq的说法,其AI推理芯片能将运行大语言模型的速度提高10倍、能效提高10倍。要体验LPU上的大语言模型,需先创建一个Groq账户。输入提示词“美国最好的披萨是什么?”跑在LPU上的Mixtral模型飞速给出回答,比以前慢慢生成一行一行字的体验好很多。它还支持对生成的答案进行修改。在公开的大语言模型基准测试上,LPU取得了压倒性战绩,运行Meta AI大语言模型Llama 2 70B时,输出tokens吞吐量比所有其他基于云的推理供应商最高要快18倍。对于Time to First Token,其缩短到0.22秒。由于LPU的确定性设计,响应时间是一致的,从而使其API提供最小的可变性范围。这意味着更多的可重复性和更少的围绕潜在延迟问题或缓慢响应的设计工作。AI写作助手创企HyperWriteAI的CEO Matt Shumer评价LPU“快如闪电”,“不到1秒写出数百个单词”,“超过3/4的时间花在搜索上,而非生成”,“大语言模型的运行时间只有几分之一秒”。有网友分享了图像生成的区域提示,并评价“非常印象深刻”。02.贾扬清分析采购和运营成本:比H100服务器贵多了Groq芯片采用14nm制程工艺,搭载230MB片上共享SRAM,内存带宽达80TB/s,FP16算力为188TFLOPS,int8算力为750TOPS。Groq在社交平台上解答了一些常见问题:1、LPU为每token提供很好的价格,因为效率高而且拥有从芯片到系统的堆栈,没有中间商;2、不卖卡/芯片,除非第三方供应商将其出售给研究/科学应用团体,销售内部系统;3、其设计适用于大型系统,而非单卡用户,Groq的优势来自大规模的设计创新。与很多大模型芯片不同的是,Groq的芯片没有HBM、没有CoWoS,因此不受HBM供应短缺的限制。在对Meta Llama 2模型做推理基准测试时,Groq将576个芯片互连。按照此前Groq分享的计算方法,英伟达GPU需要大约10~30J来生成token,而Groq每token大约需要1~3J,也就是说推理速度是原来的10倍,成本是原来的1/10,或者说性价比提高了100倍。Groq拿一台英伟达服务器和8机架Groq设备做对比,并声称非常确定配备576个LPU的Groq系统成本不到英伟达DGX H100的1/10,而后者的运行价格已超过40万美元。等于说Groq系统能实现10倍的速度下,总成本只有1/10,即消耗的空间越多,就越省钱。自称是“Groq超级粉丝”的原阿里副总裁、创办AI infra创企Lepton AI的贾扬清则从另一个角度来考虑性价比,据他分析,与同等算力的英伟达H100服务器成本比较,Groq LPU服务器实际要耗费更高的硬件采购成本和运营成本:1. 每张Groq卡的内存为230MB。对于Llama 70B模型,假设采用int8量化,完全不计推理的内存消耗,则最少需要305张卡。实际上需要的更多,有报道是572张卡,因此我们按照572张卡来计算。2. 每张Groq卡的价格为2万美元,因此购买572张卡的成本为1144万美元。当然,因为销售策略和规模效益,每张卡的价格可能打折,姑且按照目录价来计算。3. 572张卡,每张卡的功耗平均是185W,不考虑外设,总功耗为105.8kW。(注意,实际会更高)4. 现在数据中心平均每千瓦每月的价格在200美元左右,也就是说,每年的电费是105.8 x 200 x 12 = 25.4万美元。(注意,实际会更高)5. 基本上,采用4张H100卡可实现Groq的一半性能,也就是说,一台8卡H100与上面的性能相当。8卡H100的标称最大功率为10kW(实际大概在8-9kW),因此每年电费为2.4万美元或更低一些。6. 今天8卡H100的采购成本约为30万美元。7. 因此,如果运行三年,Groq的硬件采购成本是1144万美元,运营成本是76.2万美元或更高。8卡H100的硬件购买成本是30万美元,运营成本为7.2万美元或更低一些。如果按这个算法,运行3年,Groq的采购成本将是H100的38倍,运营成本将是H100的10倍。贾扬清还在评论区谈道:“老实说,我们对当前的token价格+速度SLA组合感到不适。换句话说,我们对token价格感到满意,但如果并行调用API,我们无法保证速度。”03.存算一体+软件定义硬件:编译器优先,开发速度快,易定制调试Groq联合创始人兼CEO Jonathan Ross曾宣称,相比用英伟达GPU,LPU集群将为大语言推理提供更高吞吐量、更低延迟、更低成本。“12个月内,我们可以部署10万个LPU;24个月内,我们可以部署100万个LPU。”Ross说。▲Groq领导层根据官网信息,LPU代表语言处理单元,是Groq打造的一种新型端到端处理单元,旨在克服大语言模型的计算密度和内存带宽瓶颈,计算能力超过GPU和CPU,能够减少计算每个单词所需时间,更快生成文本序列。消除外部内存瓶颈使得LPU推理引擎能够在大语言模型上提供比GPU好几个数量级的性能。LPU采用了单核心时序指令集计算机架构,无需像传使用高带宽存储(HBM)的GPU那样频繁从内存中加载数据,能有效利用每个时钟周期,降低成本。▲传统GPU内存结构▲Groq芯片内存结构Groq芯片的指令是垂直走向,而数据流向东西流动,利用位置和功能单元相交以执行操作。通过将计算和内存访问解耦,... PC版: 手机版:

封面图片

很多原文好书一直没有中译本,自己的英语阅读速度又实在是着急,gpt3.5 的 api 放出来的周末就写了个脚本翻译 epub,效

很多原文好书一直没有中译本,自己的英语阅读速度又实在是着急,gpt3.5 的 api 放出来的周末就写了个脚本翻译 epub,效果还行,身边的朋友也想用,但苦于没有 openai 的 api,于是索性和小伙伴花了 3 天时间做了个原文书翻译产品: 「风声雨声」 重点解决几个痛点: 1. 资源搜索,整合了好用的 zlib 镜像; 2. 翻译速度和稳定性,openai 对未绑卡 api 限速 10s 一次请求,基本上一本书翻译完动辄 4 个小时。这次发动美国的朋友搞了一堆绑卡 api,用队列来确保任务稳定性,把一本书的翻译速度优化到 30 分钟左右。 关于收费: gpt 的 token 计费是输入输出一起算,我翻译一本特德·姜的《你一生的故事》,500kb 的书花了 2.4 美元,最恶心的是每个绑卡 api 月限额 120 美元,也就是一个绑卡 api 一个月翻译 60 本书就没法用了,所以还是设了收费,每个月估计不到千本的产能吧。 后续会上线免费自助版本,有 api 的朋友可以自取。 整个过程中,没有美国支付卡实在太难受,盘了下之前做券商的资源,可以在国内开美国的借记卡,不用像 depay 那样走 trc 的u,先做个 early access 调查,有需求的同学可以填下:

封面图片

谷歌TPU人马打造最快推理芯片 喊话奥特曼:你们也太慢了

谷歌TPU人马打造最快推理芯片 喊话奥特曼:你们也太慢了 (这里面还有个熟悉的身影:Lepton)网友表示:这速度简直就是飞机vs走路。值得一提的是,这并非哪家大公司进展初创公司Groq,GoogleTPU团队原班人马,基于自研芯片推出推理加速方案。(注意不是马斯克的Grok)据他们介绍,其推理速度相较于英伟达GPU提高了10倍,成本却降低到十分之一。换言之,任何一个大模型都可以部署实现。目前已经能支持Mixtral 8x7B SMoE、Llama 2的7B和70B这三种模型,并且可直接体验Demo。他们还在官网上喊话奥特曼:你们推出的东西太慢了……每秒接近500tokens既然如此,那就来体验一下这个号称“史上最快推理”的Groq。先声明:不比较生成质量。就像它自己说的那样,内容概不负责。目前,演示界面上有两种模型可以选择。就选择Mixtral 8x7B-32k和GPT-4同擂台对比一下。提示词:你是一个小学生,还没完成寒假作业。请根据《星际穿越》写一篇500字的读后感。结果啪的一下,只需1.76秒就生成了一长串读后感,速度在每秒478Tokens。不过内容是英文的,以及读后感只有三百六十多字。但后面也赶紧做了解释说考虑到是小学生写不了那么多……至于GPT-4这边的表现,内容质量自然更好,也体现了整个思路过程。但要完全生成超过了三十秒。单是读后感内容的生成,也有近二十秒钟的时间。除了Demo演示外,Groq现在支持API访问,并且完全兼容,可直接从OpenAI的API进行简单切换。可以免费试用10天,这期间可以免费获得100万Tokens。目前支持Llama 2-70B 和7B, Groq可以实现4096的上下文长度,还有Mixtral 8x7B这一型号。当然也不局限于这些型号,Groq支持具体需求具体定制。价格方面,他们保证:一定低于市面上同等价格。不过可以看到,每秒500tokens似乎还不是终极速度,他们最快可以实现每秒750Tokens。GoogleTPU团队创业项目Groq是集软硬件服务于一体的大模型推理加速方案,成立于2016年,创始团队中很多都是GoogleTPU的原班人马。公司领导层的10人中,有5人都曾有Google的工作经历,3人曾在英特尔工作。创始人兼CEO Jonathan Ross,设计并实现了第一代TPU芯片的核心元件,TPU的研发工作中有20%都由他完成。Groq没有走GPU路线,而是自创了全球首个L(anguage)PU方案。LPU的核心奥义是克服两个LLM瓶颈计算密度和内存带宽,最终实现的LLM推理性能比其他基于云平台厂商快18倍。据此前他们介绍,英伟达GPU需要大约10焦耳到30焦耳才能生成响应中的tokens,而 Groq 设置每个tokens大约需要1焦耳到3焦耳。因此,推理速度提高了10倍,成本却降低了十分之一,或者说性价比提高了100倍。延迟方面,在运行70B模型时,输出第一个token时的延时仅有0.22秒。甚至为了适应Groq的性能水平,第三方测评机构ArtificialAnalysis还专门调整了图表坐标轴。据介绍,Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。Groq主要基于该公司自研的TSP架构,其内存单元与向量和矩阵深度学习功能单元交错,从而利用机器学习工作负载固有的并行性对推理进行加速。在运算处理的同时,每个TSP都还具有网络交换的功能,可直接通过网络与其他TSP交换信息,无需依赖外部的网络设备,这种设计提高了系统的并行处理能力和效率。结合新设计的Dragonfly网络拓扑,hop数减少、通信延迟降低,使得传输效率进一步提高;同时软件调度网络带来了精确的流量控制和路径规划,从而提高了系统的整体性能。Groq支持通过PyTorch、TensorFlow等标准机器学习框架进行推理,暂不支持模型训练。此外Groq还提供了编译平台和本地化硬件方案,不过并未介绍更多详情,想要了解的话需要与团队进行联系。而在第三方网站上,搭载Groq芯片的加速卡售价为2万多美元,差不多15万人民币。它由知名电子元件生产商莫仕(molex)旗下的BittWare代工,同时该厂也为英特尔和AMD代工加速卡。目前,Groq的官网正在招人。技术岗位年薪为10万-50万美元,非技术岗位则为9万-47万美元。“目标是三年超过英伟达”除此之外,这家公司还有个日常操作是叫板喊话各位大佬。当时GPTs商店推出之后,Groq就喊话奥特曼:用GPTs就跟深夜读战争与和平一样慢……阴阳怪气直接拉满~马斯克也曾被它痛斥,说“剽窃”自己的名字。在最新讨论中,他们疑似又有了新操作。一名自称Groq工作人员的用户与网友互动时表示,Groq的目标是打造最快的大模型硬件,并扬言:三年时间内赶超英伟达。这下好了,黄院士的核武器有新的目标了。参考链接:[1] ... PC版: 手机版:

封面图片

SRAM,不能微缩?还能救救

SRAM,不能微缩?还能救救 而后者SRAM与之相比,因其无需周期性更新存储的数据,通电情况下数据可一直保存,具有访问速度快的优点,通常用于CPU的高速缓存上面,但它处理1比特数据需要六个晶体管,而DRAM仅需一个晶体管,也导致了集成度较低,在相同体积下容量较小,存在体积大、成本较高等缺点。新思界产业研究中心的报告显示,2021年,全球半导体存储器市场规模达到1540亿美元左右,其中SRAM市场规模仅占极小一部分,2021年全球SRAM市场规模约为4亿美元。在全球范围内,美国是最大的SRAM需求市场,其次是日本。全球范围内,SRAM市场主要被美国赛普拉斯(Cypres)、日本瑞萨电子(Renesas)、美国ISSI公司(被北京君正收购)三家厂商所占据,合计市场占有率达到82%。在2023年以前,SRAM向来是最被冷落的存储技术之一,但随着近一年AI的爆火,情况正在悄然改变。AI带火SRAM2024年2月,GoogleTPU第一代设计者Jonathan Ross所创立的Groq公司正式宣布,其新一代LPU在多个公开测试中,以几乎最低的价格,相比GPU推理速度翻倍,后续有三方测试结果表明,该芯片对大语言模型推理进行优化效果显著,速度相较于英伟达GPU提高了10倍。在首次公开基准测试结果中,Groq搭载的Llama2或Mistreal模型在计算和响应速度上远超ChatGPT。这一成绩背后,是Groq团队为大语言模型(LLM)量身定制的专用芯片(ASIC),它使得Groq每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。根据知情人士透露,LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。有从事人工智能开发的用户称赞,Groq是追求低延迟产品的“游戏规则改变者”,低延迟指的是从处理请求到获得响应所需的时间。另一位用户则表示,Groq的LPU在未来有望对GPU在人工智能应用需求方面实现“革命性提升”,并认为它可能成为英伟达A100和H100芯片的“高性能硬件”的有力替代品。更重要的是,不同于其他GPU依赖于高速数据传输,Groq的LPU并没有采用高带宽存储器(HBM),它选择的正是SRAM,其速度比GPU所用的存储器快约20倍。一时间,和SRAM相关的概念股都成了香饽饽,不少人争先恐后地在投资平台询问AI相关,SRAM俨然成了又一个HBM。不过,很快就有专业人士给这波突如其来的热潮降温了:SRAM早就是个非常成熟的技术了,CPU中的寄存器和缓存都用的是SRAM,SRAM早已以IP内核形式完成在SoC的集成,本身的技术价值没有更大的突破。虽然SRAM确实要比DRAM快,但其价格很贵,容量较小,LPU乃至其他计算芯片,大量使用SRAM时需要有所权衡。此外,也有人指出Groq选择了SRAM的理由,主要是它只负责推理、不训练,而推理所需要的存储空间比训练要小得多,所以Groq的单板卡只有230MB的内存,由于成本和容量限制,需要谨慎看待SRAM这轮爆火。即便如此,AI还是给体量较小的SRAM打开了一条透着光的缝隙,一个全新的应用领域,就意味着更多的增长机会,而不是局限在之前的一亩三分地上。有意思的是,早在Groq官宣新的LPU前,国外网站半导体工程已经与 Alphawave Semi 首席技术官 Tony Chan Carusone、Quadric 首席营销官 Steve Roddy 和西门子 EDA 存储技术专家 Jongsin Yun 就人工智能和 SRAM 的最新问题进行了讨论。西门子 EDA 存储技术专家 Jongsin Yun表示, SRAM 与 CMOS 逻辑工艺兼容,这使得 SRAM 在从一种技术迁移到另一种技术时,可以跟踪逻辑性能的提高。SRAM 是芯片内的本地可用存储器。因此,它能提供即时访问的数据,这也是它在人工智能应用中受到青睐的原因。凭借数十年的制造经验,我们了解其大部分潜在问题以及如何最大限度地发挥其优势。就性能而言,SRAM 是我们迄今所知性能最高的内存解决方案,因此成为人工智能的首选。Quadric 首席营销官 Steve Roddy 则表示,SRAM 是任何人工智能处理解决方案的关键要素,SRAM 的用量在很大程度上取决于你谈论的是数据中心还是设备,或者是训练还是推理。但不论何种应用,在处理元件旁边都会有大量的 SRAM。不同类型计算实现之间的所有架构差异,归根结底都是管理内存、管理权重和激活流的不同策略,而这又极大地依赖于可用和可选的内存类型。任何芯片架构师都要根据自己的部署方案有效地规划内存层次结构,但在任何方案中,都必须有 SRAM。Alphawave Semi 首席技术官 Tony Chan Carusone也表示,SRAM 对人工智能至关重要,尤其是嵌入式 SRAM。它的性能最高,而且可以直接与高密度逻辑集成在一起。仅从这些原因来看,它就非常重要。逻辑的扩展性要好于 SRAM。因此,SRAM 变得更加重要,并占用了更大一部分芯片面积。一些处理器上有大量的 SRAM,而且这种趋势可能会继续下去,这将成为整个处理器的一个重要成本驱动因素。一个新趋势是,将这些已达到视网膜极限的大型芯片分解成多个芯片组,并通过适当的互连,使它们能够像一个大型芯片一样运行,从而集成更多的计算和更多的 SRAM。反过来,大量的 SRAM 又进一步推动了向基于芯片的实现过渡。通过这几位专家的讨论我们可以发现,即便是不像Groq那样直接把SRAM当作内存来使用,AI依旧和SRAM脱不开干系,SRAM未来也有望随着AI的火热来焕发第二春。SRAM的绊脚石但困扰SRAM的,远不止应用,还有技术。前面提到过,SRAM采用的是6晶体管架构(逻辑区通常包含4个晶体管/单元),但是,在跟上 CMOS 缩放的步伐时,SRAM 却表现不佳,这对功耗和性能产生了影响。随着人工智能设计对内部存储器访问的要求越来越高,如何在技术节点迁移过程中进一步扩大 SRAM 的功耗和性能优势已成为一项重大挑战。在2022年底,台积电的一篇论文带来了可怕的坏消息虽然逻辑仍在或多或少地沿着历史趋势线扩展,但 SRAM 扩展似乎已经完全崩溃。台积电曾在正式推出 N3 制造技术时表示,与 N5(5 纳米级)工艺相比,新节点的逻辑密度将提高 1.6 倍和 1.7 倍,而台积电在论文却承认,与 N5 相比,新技术的 SRAM 单元几乎没有扩展。台积电 N3 的 SRAM 位元尺寸为 0.0199µm^²,与 N5 的 0.021 µm^² SRAM 位元相比,仅缩小了约 5%。改进后的 N3E 情况更糟,因为它配备了 0.021 µm^² SRAM 位元组(大致相当于 31.8 Mib/mm^²),这意味着与 N5 相比完全没有缩放。随着芯片性能的增长,对缓存和 SRAM 的需求只会增加,但 N3(仅用于少数产品)和 N3E 却无法减少 SRAM 占用的芯片面积,也无法降低新节点比 N5 更高的成本。从根本上说,这意味着高性能处理器的芯片尺寸将增大,成本也将增加,同时SRAM 单元也会与逻辑单元一样容易出现缺陷。虽然芯片设计人员将能够利用台积电 N3 的 FinFlex 创新技术(在一个区块中混合和匹配不同种类的 FinFET,以优化其性能、功耗或面积)来缓解 SRAM 单元变大的问题,但无法根治SRAM无法扩展这一问题事实上,早在 20nm 制程中,SRAM 就无法与逻辑相应地扩展,这也注定了当片上存储器变得比芯片本身还要大时,会面临功耗和性能方面的挑战。而针对这些问题,系统设计人员和硬件开发人员也从那时就在不断提出新的解决方案和开发新的技术。AMD采取了不同的方法。它推出了一种名为 3D V-Cache 的技术,该技术允许将单独芯片上的附加 SRAM 高速缓存存储器堆叠在处理器顶部,从而增加处理器内核可用的高速缓存量。额外的芯片增加了成本,但允许访问额外的 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人