Intel发布Gaudi 3 AI加速器:4倍性能提升、无惧1800亿参数大模型

Intel发布Gaudi 3 AI加速器:4倍性能提升、无惧1800亿参数大模型 数据显示,预计到2030年,全球半导体市场规模将达1万亿美元,AI是主要推动力,不过在2023年,只有10%的企业能够成功将其AIGC项目产品化。Intel的最新解决方案,有望帮助企业应对推广AI项目时所面临的挑战,加速实现AIGC落地商用。Intel现有的Gaudi 2诞生于2022年5月,并于2023年7月正式引入中国,拥有极高的深度学习性能、效率,以及极高的性价比。它采用台积电7nm工艺制造,集成24个可编程的Tenor张量核心(TPC)、48MB SRAM缓存、21个10万兆内部互连以太网接口(ROCEv2 RDMA)、96GB HBM2E高带宽内存(总带宽2.4TB/s)、多媒体引擎等,支持PCIe 4.0 x16,最高功耗800W,可满足大规模语言模型、生成式AI模型的强算力需求。新一代的Gaudi 3面向AI训练和推理,升级为台积电5nm工艺,带来了2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的网络带宽、1.5倍的内存带宽。对比NVIDIA H100,它在流行LLM上的推理性能领先50%、训练时间快40%。Gaudi 3预计可大幅缩短70亿和130亿参数Llama2模型、1750亿参数GPT-3模型的训练时间。在Llama 70亿/700亿参数、Falcon 1800亿参数大型语言模型上,Gaudi 3的推理吞吐量和能效也都非常出色。Gaudi 3提供多种灵活的形态,包括OAM兼容夹层卡、通用基板、PCIe扩展卡,满足不同应用需求。Gaudi 3提供开放的、基于社区的软件,以及行业标准以太网网络,可以灵活地从单个节点扩展到拥有数千个节点的集群、超级集群和超大集群,支持大规模的推理、微调和训练。Gaudi 3 AI加速器具备高性能、经济实用、节能、可快速部署等优点,能够充分满足复杂性、成本效益、碎片化、数据可靠性、合规性等AI应用需求。Gaudi 3将于2024年第二季度面向OEM厂商出货,包括戴尔、慧与、联想、超威等。目前,Intel Gaudi加速器的行业客户及合作伙伴有NAVER、博世(Bosch)、IBM、Ola/Krutrim、NielsenIQ、Seekr、IFF、CtrlS Group、Bharti Airtel、Landing AI、Roboflow、Infosys,等等。此外,Intel还宣布联合Anyscale、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、SAS、VMware、Yellowbrick、Zilliz等伙伴,共同创建一个开放平台,助力企业推动AI创新。该计划旨在开发开放的、多供应商的AIGC系统,通过RAG(检索增强生成)技术,提供一流的部署便利性、性能和价值。初始阶段,Intel将利用至强处理器、Gaudi加速器,推出AIGC流水线的参考实现,发布技术概念框架,并继续加强Intel Tiber开发者云平台基础设施的功能。 ... PC版: 手机版:

相关推荐

封面图片

Intel Gaudi 3 AI加速器可以卖给中国 但挥刀砍掉一半

Intel Gaudi 3 AI加速器可以卖给中国 但挥刀砍掉一半 Intel声称,它相比上代拥有2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的网络功耗为600W带宽、1.5倍的内存带宽,而对比NVIDIA H100 LLM推理性能领先50%、训练时间快40%。Gaudi 3的首发版本编号HL-325L,OAM形态,已经出货,功耗900W,风冷散热。它的中国特供版将在6月份推出,编号HL-328,功耗减半至450W,HMB内存、缓存、解码器等完全保留,但既然功耗少了一半,算力差不多也会被腰斩。10月份还会有个液冷版本HL-335,支持双路并联,但不能卖给中国,也没有特供版。PCIe扩展卡形态将在9月份出货,风冷,满血版编号HL-338,,中国特供版编号HL-388,功耗又被限制在450W。通用基板形态的编号为HLB-325,但具体规格和出货时间暂时不详。说起来,NVIDIA是最早做中国特供版AI加速器的,也就是H800、A800,后来也被禁售了,最近又拿出了H20、L20、L2、RTX 4090D,都能卖。AMD也设计了特供版Instinct MI309、MI388X,但都被美政府以算力还是太强为由给打回,而年底将要升级到MI350。 ... PC版: 手机版:

封面图片

AMD 正式发布 MI300 加速器,性能较英伟达 H100 芯片提高 60%

AMD 正式发布 MI300 加速器,性能较英伟达 H100 芯片提高 60% 在美国加州圣何塞举行的 AI 特别活动中,AMD 宣布正式推出其旗舰 AI GPU 加速器 MI300X,并称其性能比英伟达的 H100 芯片提高了 60%。 据 AMD 介绍,新芯片为性能最高的芯片,拥有超过 1500 亿个晶体管。与英伟达 H100 芯片相比,AMD 新芯片的内存为其 2.4 倍,内存带宽为其 1.6 倍,训练性能与 H100 芯片相当,在运行 AI 模型方面则比英伟达快得多。 、

封面图片

英特尔Gaudi 2-D加速器出现在新的Linux补丁中 可能是中国特供版

英特尔Gaudi 2-D加速器出现在新的Linux补丁中 可能是中国特供版 在此之前,我们曾看到Gaudi 2-C 型号浮出水面,但我们没有收到英特尔方面确切的消息。我们所知道的英特尔新发布的唯一一款 AI 加速器是下一代Gaudi 3 AI 加速器,在 Computex 2024 上有过广泛报道,但看起来该公司可能正在计划修订型号。深入研究拉取请求,除了新的英特尔Gaudi 2-D 模型使用了与原始Gaudi 2 AI 加速器相同的代码路径这一事实之外,补丁中并没有太多关于新模型的细节,这表明"2D"变体可能是针对特定客户群的修订版。让人联想到的一点是,英特尔可能正在准备进军中国市场,正如之前报道的那样,随着这些变体的浮出水面,公司可能会决定在中国提供中低端型号,但目前还不能确定。Gaudi 2-D 肯定不是英特尔及其人工智能部门的终点。在最近的 Computex 主题演讲上,该公司对其在人工智能市场的未来表现出了极大的乐观,尤其是Gaudi系列,以及它如何提供最佳性价比的设计。虽然英特尔现在无法与英伟达的水平相提并论,但他们肯定会在价值方面积极进取,如果该公司决定利用尚未开发的中国市场,那么英伟达就会有所顾忌。 ... PC版: 手机版:

封面图片

:多语言、高性能、可定制:350亿参数的开源语言模型

:多语言、高性能、可定制:350亿参数的开源语言模型 - C4AI Command-R是一个350亿参数的高性能生成式模型,由Cohere和Cohere For AI联合开发。 - Command-R是一个大型语言模型,其开放权重针对多种用例进行了优化,包括推理、摘要和问答。 - Command-R具有多语言生成能力,在10种语言上进行了评估,并具有高性能的RAG(Retrieval-Augmented Generation)能力。 - 该模型的许可证为CC-BY-NC,使用时还需遵守C4AI的可接受使用政策。 - Command-R的上下文长度为128K,可以使用Hugging Face的Transformers库进行调用和使用。 - C4AI Command-R的发布展示了Cohere在开发大型语言模型方面的实力。350亿参数的模型规模处于业界领先水平,有望在多个应用领域取得突破。 - Command-R的开放权重和对多种用例的优化,为开发者和研究者提供了灵活性和可定制性。这有助于促进模型的应用和创新。 - 多语言生成能力和高性能RAG能力的结合,使Command-R在跨语言任务和知识密集型任务上具有独特优势。这可能推动自然语言处理技术在全球范围内的普及和应用。 - CC-BY-NC许可证和C4AI的可接受使用政策体现了Cohere对于负责任AI开发的重视。在开放模型的同时,设置合理的使用边界,有助于防范潜在的滥用风险。 - 基于Hugging Face生态系统发布模型,降低了用户的使用门槛。这种与主流开源社区的融合,有利于Command-R的推广和迭代。 - 尽管Command-R的开放权重提供了灵活性,但对于缺乏计算资源的中小型开发者而言,350亿参数的模型规模可能难以承受。这可能加剧AI开发的门槛和不平等。 - Command-R在多语言任务上的出色表现,可能促使更多开发者将其应用于跨文化交流和全球化业务。但过度依赖单一模型,可能忽视了不同语言和文化的独特性。 - 开放模型虽然有利于创新,但也可能加剧恶意使用和滥用的风险。即使有使用政策的约束,在实践中难以对每一个应用进行有效监管。这需要技术和制度的双重发力。

封面图片

【通义千问720亿参数模型开源】

【通义千问720亿参数模型开源】 华尔街见闻获悉,12月1日, #阿里 云开源通义千问720亿参数模型Qwen-72B。据了解,该版本模型的性能超过Llama 2-70B和大部分商用闭源模型,可适配企业级、科研级的高性能应用。此外,通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio,实现“全尺寸、全模态”开源。(全天候科技)

封面图片

1000+亿晶体管怪物 Intel GPU Max诞生一年半就被放弃

1000+亿晶体管怪物 Intel GPU Max诞生一年半就被放弃 据最新曝料,Intel已经告知合作伙伴,GPU Max系列将逐步停产退市,Intel AI加速器的重点将放在Guadi 2/3系列,还有明年的第二代GPU Max Falcon Shores。Ponte Vecchio GPU Max当年是Raja Koduri力推的项目,采用了5种不同制造工艺、47个不同模块,晶体管数量超过1000亿个,配备最多128个Xe-HPC高性能计算核心、128个光追核心、64MB一级缓存、108MB二级缓存、128GB HBM高带宽内存,满血功耗600W。Gaudi 3则是独立的AI加速器,不久前刚刚发布,升级台积电5nm工艺,配备了8个矩阵引擎、64个张量核心、96MB SRAM缓存、1024-bit 128GB HBM2E内存,满血功耗达900W。Intel声称,它相比上代拥有2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的网络带宽、1.5倍的内存带宽,而对比NVIDIA H100 LLM推理性能领先50%、训练时间快40%。针对中国市场,Gaudi 3将提供特殊版本,功耗最高限制在450W。Falcon Shores最初规划融合CPU、GPU,就像AMD Instinct MI300A,但后来改为纯GPU方案,融合设计则后续再说。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人