【免费流片还包邮到家,谷歌「拼团」芯片项目推出了官方教程网站】Open MPW shuttle 于 2020 年 11 月在

【免费流片还包邮到家,谷歌「拼团」芯片项目推出了官方教程网站】Open MPW shuttle 项目于 2020 年 11 月在芯片设计服务平台 Efabless 上展开,流片在开源的 SkyWater 130nm 工艺上完成。该项目对所有人开放,只要你的项目是完全开源的,并满足其他一些要求。项目的制造、包装、评估 PCB 板和运输费用均由谷歌承担。 #抽屉IT

相关推荐

封面图片

谷歌推出芯片开发网站,让芯片开发更像编写开源软件

谷歌推出芯片开发网站,让芯片开发更像编写开源软件 谷歌硬件工具链团队推出一个新的开发者门户网站,即,以帮助开发者社区开始使用其开放MPW穿梭计划。 这将允许任何人提交开源集成电路设计并得到免费制造的机会。 自2020年11月,当Skywater Technologies宣布与谷歌合作,为SKY130工艺节点开源他们的工艺设计套件时,谷歌的硬件工具链团队就开始了使所有开发者都能构建开放式芯片(open silicon)的旅程。能够获得一个开源和可制造的PDK,改变了定制芯片设计行业和学术界的现状。 - 设计师现在可以自由地开始他们的项目,不受NDA和使用限制的影响 - 研究人员能够让他们的研究被同行复制 - 开源EDA工具可以与制造过程深度整合 Google Blog,slashdot

封面图片

美国50亿美元芯片研发投资落地 英伟达市值逼近谷歌亚马逊

美国50亿美元芯片研发投资落地 英伟达市值逼近谷歌亚马逊 美国芯片股集体上涨与美国政府针对芯片研发的投资款项落地有关。2月9日,美国商务部长网站消息宣布,下一阶段对CHIPS研发计划的投资预计超过50亿美元,其中包括国家半导体技术中心(NSTC)的建设。CHIPS是美国芯片研发计划,NSTC的建设是美国芯片研发计划的核心部分。CHIPS的其他研发项目还包括:美国国家先进包装制造项目、CHIPS计量项目和CHIPS美国制造业研究所。这些计划为美国建立了必要的创新生态系统,以确保美国半导体制造设施可以生产世界上最复杂、最先进的技术。推动芯片研发是美国《芯片与科学法案》 的重要部分。该法案于2022年8月获得美国国会批准,其中包括390亿美元的半导体生产补贴和110亿美元的芯片研发补贴,总共涉及补贴资金规模超过500亿美元。美国商务部还计划在两个月内为芯片制造提供资金。据美国商务部长雷蒙多介绍,NSTC将进行先进半导体技术的研究和原型设计,目前美国商务部正在与一些公司进行谈判,希望带动高端半导体制造相关供应链的发展。该中心还将设立投资基金,帮助新兴半导体公司推进技术商业化。另据介绍,这些投资都属于面向新一代技术的投资,无论从规模还是复杂性来看,都是空前的。美国政府对芯片研发制造投入巨额补贴,正处于半导体行业格局发生巨大变化之际。受人工智能芯片需求的推动,很多科技公司都开始加大芯片研发的力度,尤其是云计算巨头,谷歌、亚马逊和微软都已经公开了其自研芯片的计划。目前在高端AI芯片市场,英伟达仍然掌控了超过80%的份额。近日有消息称,英伟达正在建立一个新的业务部门,主要用于帮助云计算公司设计包括AI芯片在内的定制芯片。不过英伟达方面尚未就此作出回应。据研究公司650 Group的预测数据,数据中心定制芯片市场规模在2024年将增长至100亿美元,到2025年还将翻一番。目前,数据中心定制芯片设计市场主要由博通和Marvell两家公司主导。 ... PC版: 手机版:

封面图片

韩企FADU获得CXL交换芯片销售权 预计2026年推出

韩企FADU获得CXL交换芯片销售权 预计2026年推出 Eeum表示,预计将在CXL 3.0版本商业化,以及CXL 4.0规格确定后推出芯片产品,时间将是2026年下半年的某个时候。Jinki Han补充,两家公司将就如何分享利润、承担成本以及使用哪家芯片代工厂方面进行讨论,但目前尚未决定。据了解,CXL是一种依赖PCIe的高速互联标准,可在数据中心的CPU、内存、GPU之间实现超高速数据传输,扩展并共享内存。CXL联盟成立于2019年,成员包括三星、英特尔、微软、Facebook、Google和亚马逊。这一标准被认为可能改善数据中心的性能,具有带宽、灵活性、可扩展性三大优势。目前主流的双通道DDR5 DRAM可实现51.2GB/s带宽,而CXL 2.0 PCIe 5.0可提供64GB/s带宽。CXL可在异构芯片,比如CPU、GPU、FPGA之间灵活分配内存容量,实现更流畅的数据传输。此外,DDR5内存插槽受限,而CXL连接可通过共享和切换连接更多内存模块。想要实现CXL的交换能力,需要专门的CXL交换芯片来实现数据平滑扩展、共享、分配和传输。Eeum与其母公司FADU一同合作,开发这种交换芯片。据悉,博通以及英伟达投资的Mellanox也在开发这项技术。此外半导体初创企业Astera Labs专注于CXL高速互联解决方案,已于3月在纳斯达克上市,该公司方案目前经过验证,与英特尔服务器芯片兼容。Eeum CEO Jinki Han表示,韩国在固态硬盘(SSD)的发展上处于领先地位,FADU也有主控芯片设计技术。这意味着,FADU及Eeum在CXL领域具有竞争力。目前CXL技术仍在迭代中,韩国业界预计,CXL市场将随基于PCIe 6.0的CXL 3.0而正式开放,带宽可达256GB/s。英特尔将于明年推出的Diamond Rapids至强处理器,也将支持CXL 3.0。除了与子公司合作,FADU也在开发自己的CXL存储芯片解决方案,同时使用DRAM和NAND,这可能与交换芯片一同销售。FADU还在培育自己的CXL软件生态,近期启动了一个名为Open CXL的开源项目,可以在没有硬件的协助下进行CXL模拟。据了解,Jinki Han于2023年10月在硅谷创立Eeum公司,他此前曾在三星、SK海力士从事存储方面的工作。FADU于去年10月向Eeum投资54亿韩元,2024年6月又对其投资63亿韩元。 ... PC版: 手机版:

封面图片

中国正利用空间站测试各种芯片并取得技术优势 目标对手不再是NASA

中国正利用空间站测试各种芯片并取得技术优势 目标对手不再是NASA 相比于美国在太空中使用已有数十年技术历史的250nm制程芯片,中国不仅已有超过20款28nm到16nm制程范围的高性能芯片通过测试,未来还有更多国内芯片制造商正排队等待接受严格的太空测试,中国的目标是开发各种可在轨道上长时间保持稳定可靠运行的高性能芯片,这是一项艰巨而具有挑战性的任务。报道特别提到,对于中国而言,目前在该领域的最大竞争压力并不再是来自美国国家航空航天局(NASA),而是来自以SpaceX为代表的的私营航天企业。未来,中国也计划打造一个与“星链”一较高下的卫星互联网体系。航天专家认为,未来几年,全球对高性能、低成本太空级芯片的需求将呈爆炸式增长。2021年4月29日,海南文昌,长征五号B遥二运载火箭成功将空间站天和核心舱送入预定轨道,这是中国空间站建造阶段的首次发射。图自IC Photo《南华早报》援引直接参与中国地外芯片项目的科学家称,中国空间站现在可以同时测试100多个计算机处理器。同时,有超过20款全新的高性能芯片已经通过了测试,工艺制程范围从28nm到16nm,这些芯片比其他国家在太空中所使用的芯片要先进得多。此外,中国拥有大量的深紫外光刻机,也能够以低成本生产大量芯片。科学家们表示,在“天宫”测试的芯片完全是在中国设计和制造的。在测试期间,芯片在中国独立开发的Space OS操作系统上运行,该系统广泛用于中国空间站和其他空间设施。报道提到,NASA透露,其目前在太空中使用的芯片是基于已有30年历史的技术。例如,2021年发射的詹姆斯·韦伯太空望远镜,其中的RAD750处理器使用的是过时的250nm制程芯片,时钟频率仅为118兆赫,不及典型智能手机芯片的一小部分。众所周知,被称为“天宫”的中国空间站,是我国建成的国家级太空实验室,这一完全自建的空间站,给我国带来了许多好处和便利。相比之下,国际空间站虽然也可进行类似实验,但其规则规定,参与其中的国家都有权了解发送到国际空间站的所有有效载荷的详细信息,这将给涉及国家安全和技术机密的芯片测试带来不便。2023年11月28日,中国载人航天工程首次对外发布由神舟十六号乘组返回地面前手持高清相机,通过飞船绕飞拍摄的空间站组合体全景照片。新华社发(中国载人航天工程办公室供图)《南华早报》直言,中国认为,其最大的竞争压力不再来自NASA,而是来自以SpaceX为代表的的私营航天企业。例如,“星链”卫星使用大量廉价的商用芯片,由于所需数量大,所以预期寿命短。直到去年,NASA才最终决定让两家私人承包商为其未来重要的太空任务设计和制造一种新的芯片,涉及载人登月和火星探测。这种基于开源RISC-V架构的新芯片将比以前的处理器快100倍,预计将于明年进入市场。中国空间技术研究院的项目团队去年12月在学术期刊《航天器环境工程》上发表了同行评议论文,其中称,预计不久后将有更多的国内芯片制造商排队等候,让他们的顶级产品通过严格的太空测试。“在轨道上进行大规模芯片测试是一项艰巨而具有挑战性的任务,但这对中国快速增长的太空雄心至关重要。”报道援引该项目团队指出,中国利用空间站展开的这项工作规模比以往在利用卫星上的平台测试要大得多。不过,这篇论文也指出,中国的航天工程师也在“先进性”和“谨慎性”之间不断权衡。一方面,他们希望采用人工智能等先进技术,获取新的太空应用所需的更高端处理能力;另一方面,随着芯片上晶体管数量的增加,会更容易受到宇宙高能粒子的干扰,从而影响计算和信息存储的准确性。中方团队表示,中国的目标是开发各种高性能芯片,以使这些芯片可以在轨道上长时间保持稳定可靠的运行。同时,中国计划建立一个与“星链”一较高下的卫星互联网体系,以使中国的卫星不仅能够处理通信功能,还能携带传感器监测地球和太空。一些中国航天专家认为,未来几年,全球对高性能、低成本太空级芯片的需求将呈爆炸式增长。 ... PC版: 手机版:

封面图片

谷歌TPU人马打造最快推理芯片 喊话奥特曼:你们也太慢了

谷歌TPU人马打造最快推理芯片 喊话奥特曼:你们也太慢了 (这里面还有个熟悉的身影:Lepton)网友表示:这速度简直就是飞机vs走路。值得一提的是,这并非哪家大公司进展初创公司Groq,GoogleTPU团队原班人马,基于自研芯片推出推理加速方案。(注意不是马斯克的Grok)据他们介绍,其推理速度相较于英伟达GPU提高了10倍,成本却降低到十分之一。换言之,任何一个大模型都可以部署实现。目前已经能支持Mixtral 8x7B SMoE、Llama 2的7B和70B这三种模型,并且可直接体验Demo。他们还在官网上喊话奥特曼:你们推出的东西太慢了……每秒接近500tokens既然如此,那就来体验一下这个号称“史上最快推理”的Groq。先声明:不比较生成质量。就像它自己说的那样,内容概不负责。目前,演示界面上有两种模型可以选择。就选择Mixtral 8x7B-32k和GPT-4同擂台对比一下。提示词:你是一个小学生,还没完成寒假作业。请根据《星际穿越》写一篇500字的读后感。结果啪的一下,只需1.76秒就生成了一长串读后感,速度在每秒478Tokens。不过内容是英文的,以及读后感只有三百六十多字。但后面也赶紧做了解释说考虑到是小学生写不了那么多……至于GPT-4这边的表现,内容质量自然更好,也体现了整个思路过程。但要完全生成超过了三十秒。单是读后感内容的生成,也有近二十秒钟的时间。除了Demo演示外,Groq现在支持API访问,并且完全兼容,可直接从OpenAI的API进行简单切换。可以免费试用10天,这期间可以免费获得100万Tokens。目前支持Llama 2-70B 和7B, Groq可以实现4096的上下文长度,还有Mixtral 8x7B这一型号。当然也不局限于这些型号,Groq支持具体需求具体定制。价格方面,他们保证:一定低于市面上同等价格。不过可以看到,每秒500tokens似乎还不是终极速度,他们最快可以实现每秒750Tokens。GoogleTPU团队创业项目Groq是集软硬件服务于一体的大模型推理加速方案,成立于2016年,创始团队中很多都是GoogleTPU的原班人马。公司领导层的10人中,有5人都曾有Google的工作经历,3人曾在英特尔工作。创始人兼CEO Jonathan Ross,设计并实现了第一代TPU芯片的核心元件,TPU的研发工作中有20%都由他完成。Groq没有走GPU路线,而是自创了全球首个L(anguage)PU方案。LPU的核心奥义是克服两个LLM瓶颈计算密度和内存带宽,最终实现的LLM推理性能比其他基于云平台厂商快18倍。据此前他们介绍,英伟达GPU需要大约10焦耳到30焦耳才能生成响应中的tokens,而 Groq 设置每个tokens大约需要1焦耳到3焦耳。因此,推理速度提高了10倍,成本却降低了十分之一,或者说性价比提高了100倍。延迟方面,在运行70B模型时,输出第一个token时的延时仅有0.22秒。甚至为了适应Groq的性能水平,第三方测评机构ArtificialAnalysis还专门调整了图表坐标轴。据介绍,Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。Groq主要基于该公司自研的TSP架构,其内存单元与向量和矩阵深度学习功能单元交错,从而利用机器学习工作负载固有的并行性对推理进行加速。在运算处理的同时,每个TSP都还具有网络交换的功能,可直接通过网络与其他TSP交换信息,无需依赖外部的网络设备,这种设计提高了系统的并行处理能力和效率。结合新设计的Dragonfly网络拓扑,hop数减少、通信延迟降低,使得传输效率进一步提高;同时软件调度网络带来了精确的流量控制和路径规划,从而提高了系统的整体性能。Groq支持通过PyTorch、TensorFlow等标准机器学习框架进行推理,暂不支持模型训练。此外Groq还提供了编译平台和本地化硬件方案,不过并未介绍更多详情,想要了解的话需要与团队进行联系。而在第三方网站上,搭载Groq芯片的加速卡售价为2万多美元,差不多15万人民币。它由知名电子元件生产商莫仕(molex)旗下的BittWare代工,同时该厂也为英特尔和AMD代工加速卡。目前,Groq的官网正在招人。技术岗位年薪为10万-50万美元,非技术岗位则为9万-47万美元。“目标是三年超过英伟达”除此之外,这家公司还有个日常操作是叫板喊话各位大佬。当时GPTs商店推出之后,Groq就喊话奥特曼:用GPTs就跟深夜读战争与和平一样慢……阴阳怪气直接拉满~马斯克也曾被它痛斥,说“剽窃”自己的名字。在最新讨论中,他们疑似又有了新操作。一名自称Groq工作人员的用户与网友互动时表示,Groq的目标是打造最快的大模型硬件,并扬言:三年时间内赶超英伟达。这下好了,黄院士的核武器有新的目标了。参考链接:[1] ... PC版: 手机版:

封面图片

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU?

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU? 推理速度比GPU快10倍,功耗仅1/10据介绍,Groq的大模型推理芯片是全球首个LPU(Language Processing Unit)方案,是一款基于全新的TSA 架构的Tensor Streaming Processor (TSP) 芯片,旨在提高机器学习和人工智能等计算密集型工作负载的性能。虽然Groq的LPU并没有采用更本高昂的尖端制程工艺,而是选择了14nm制程,但是凭借自研的TSA 架构,Groq LPU 芯片具有高度的并行处理能力,可以同时处理数百万个数据流,并该芯片还集成了230MB容量的SRAM来替代DRAM,以保证内存带宽,其片上内存带宽高达80TB/s。根据官方的数据显示,Groq的LPU芯片的性能表现相当出色,可以提供高达1000 TOPS (Tera Operations Per Second) 的计算能力,并且在某些机器学习模型上的性能表现可以比常规的 GPU 和 TPU 提升10到100倍。Groq表示,基于其LPU芯片的云服务器在Llama2或Mistreal模型在计算和响应速度上远超基于NVIDIA AI GPU的ChatGPT,其每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。由于ChatGPT-3.5主要是基于NVIDIA的GPU,也就是说,Groq LPU芯片的响应速度达到了NVIDIA  GPU的10倍以上。Groq表示,相对于其他云平台厂商的大模型推理性能,基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。另外,在能耗方面,NVIDIAGPU需要大约10到30焦耳才能生成响应中的tokens,而Groq LPU芯片仅需1到3焦耳,在推理速度大幅提升10倍的同时,其能耗成本仅有NVIDIAGPU的十分之一,这等于是性价比提高了100倍。Groq公司在演示中展示了其芯片的强大性能,支持Mistral AI的Mixtral8x7B SMoE,以及Meta的Llama2的7B和70B等多种模型,支持使用4096字节的上下文长度,并可直接体验Demo。不仅如此,Groq还喊话各大公司,扬言在三年内超越NVIDIA。目前该公司的LPU推理芯片在第三方网站上的售价为2万多美元,低于NVIDIA H100的2.5-3万美元。资料显示,Groq 是一家成立于2016年人工智能硬件初创公司,核心团队来源于谷歌最初的张量处理单元(TPU)工程团队。Groq 创始人兼CEO Jonathan Ross是谷歌TPU项目的核心研发人员。该公司硬件工程副总裁Jim Miller 曾是亚马逊云计算服务AWS设计算力硬件的负责人,还曾在英特尔领导了所有 Pentium II 工程。目前该公司筹集了超过 6200 万美元。为何采用大容量SRAM?Groq LPU芯片与大多数其他初创公司和现有的AI处理器有着截然不同的时序指令集计算机(Temporal Instruction Set Computer)架构,它被设计为一个强大的单线程流处理器,配备了专门设计的指令集,旨在利用张量操作和张量移动,使机器学习模型能够更有效地执行。该架构的独特之处在于执行单元、片内的SRAM内存和其他执行单元之间的交互。它无需像使用HBM(高带宽内存)的GPU那样频繁地从内存中加载数据。Groq 的神奇之处不仅在于硬件,还在于软件。软件定义的硬件在这里发挥着重要作用。Groq 的软件将张量流模型或其他深度学习模型编译成独立的指令流,并提前进行高度协调和编排。编排来自编译器。它提前确定并计划整个执行,从而实现非常确定的计算。“这种确定性来自于我们的编译器静态调度所有指令单元的事实。这使我们无需进行任何激进的推测即可公开指令级并行性。芯片上没有分支目标缓冲区或缓存代理,”Groq 的首席架构师 Dennis Abts 解释道。Groq LPU芯片为了追求性能最大化,因此添加了更多SRAM内存和执行块。SRAM全名为“静态随机存取存储器”(Static Random-Access Memory)是随机存取存储器的一种。所谓的“静态”,是指这种存储器只要保持通电,里面储存的数据就可以恒常保持。相对之下,动态随机存取存储器(DRAM)里面所储存的数据则需要周期性地更新。自SRAM推出60多年来,其一直是低延迟和高可靠性应用的首选存储器,事实上,对于 AI/ML 应用来说,SRAM 不仅仅具有其自身的优势。SRAM 对于 AI 至关重要,尤其是嵌入式 SRAM,它是性能最高的存储器,可以将其直接与高密度逻辑核心集成在一起。目前SRAM也是被诸多CPU集成在片内(更靠近CPU计算单元),作为CPU的高速缓存,使得CPU可以更直接、更快速的从SRAM中获取重要的数据,无需去DRAM当中读取。只不过,当前旗舰级CPU当中的SRAM容量最多也仅有几十个MB。Groq之所以选择使用大容量的 SRAM来替代DRAM 内存的原因主要有以下几点:1、SRAM 内存的访问速度比 DRAM 内存快得多,这意味着 LPU 芯片更快速地处理数据,从而提高计算性能。2、SRAM 内存没有 DRAM 内存的刷新延迟,这意味着LPU芯片也可以更高效地处理数据,减少延迟带来的影响。3、SRAM 内存的功耗比 DRAM 内存低,这意味着LPU芯片可以更有效地管理能耗,从而提高效率。但是,对于SRAM来说,其也有着一些劣势:1、面积更大:在逻辑晶体管随着CMOS工艺持续微缩的同时,SRAM的微缩却十分的困难。事实上,早在 20nm时代,SRAM 就无法随着逻辑晶体管的微缩相应地微缩。2、容量小:SRAM 的容量比 DRAM 小得多,这是因为每个bit的数据需要更多的晶体管来存储,再加上SRAM的微缩非常困难,使得相同面积下,SRAM容量远低于DRAM等存储器。这也使得SRAM在面对需要存储大量数据时的应用受到了限制。3、成本高:SRAM 的成本比 DRAM要高得多,再加上相同容量下,SRAM需要更多的晶体管来存储数据,这也使得其成本更高。总的来说,虽然SRAM 在尺寸、容量和成本等方面具有一些劣势,这些劣势限制了其在某些应用中的应用,但是 SRAM 的访问速度比 DRAM 快得多,这使得它在某些计算密集型应用中表现得非常出色。Groq LPU 芯片采用的大容量 SRAM 内存可以提供更高的带宽(高达80TB/s)、更低的功耗和更低的延迟,从而提高机器学习和人工智能等计算密集型工作负载的效率。那么,与目前AI GPU当中所搭载的 HBM 内存相比,Groq LPU 芯片集成的 SRAM 内存又有何优势和劣势呢?Groq LPU 芯片的 SRAM 内存容量虽然有230MB,但是相比之下AI GPU 中的 HBM 容量通常都有数十GB(比如NVIDIA H100,其集成了80GB HBM),这也意味着LPU 芯片可能无法处理更大的数据集和更复杂的模型。相同容量下,SRAM的成本也比HBM更高。不过,与HBM 相比,Groq LPU 芯片的所集成的 SRAM 的仍然有着带宽更快(NVIDIA H100的HBM带宽仅3TB/s)、功耗更低、延迟更低的优势。能否替代NVIDIA H00?虽然Groq公布的数据似乎表明,其LPU芯片的推理速度达到了NVIDIA GPU的10倍以上,并且能耗成本仅是它十分之一,等于是性价比提高了100倍。但是,Groq并且明确指出其比较的是NVIDIA的哪款GPU产品。由于目前NVIDIA最主流的AI GPU是H100,因此,我们就拿NVIDIA H100来与Groq LPU来做比较。由于Groq LPU只有230MB的片上SRAM来作为内存,因此,如果要运行Llama-2 70b模型,即使将Llama 2 70b量化到INT8精度,仍然需要70GB左右的内存。即使完全忽略内存消耗,也需要305张Groq LPU加速卡才够用。如果考虑到内存消耗,可能需要572张Groq LPU加速卡。官方数据显示,Groq LPU的平均功耗为185W,即使不计算外围设备的功耗,572张Groq LPU加速卡的总功耗也高达105.8kW。假设一张Groq LPU加速卡的价格为2万美元,因此,购买572张卡的成本高达1144万美元(规模采购价格应该可以更低)。根据人工智能科学家贾扬清分享的数据显示,目前,数据中心每月每千瓦的平均价格约为20美元,这意味着572张Groq LPU加速卡每年的电费为105.8*200*12=25.4万美元。贾扬清还表示,使用4张NVIDIA H100加速卡就可以实现572张Groq LPU一半的性能,这意味着一个8张H100的服务器的性能大致相当于572张Groq LPU。而8张H100加速卡... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人