Intel发布Gaudi 3 AI加速器：4倍性能提升、无惧1800亿参数大模型

Intel发布Gaudi 3 AI加速器：4倍性能提升、无惧1800亿参数大模型数据显示，预计到2030年，全球半导体市场规模将达1万亿美元，AI是主要推动力，不过在2023年，只有10％的企业能够成功将其AIGC项目产品化。Intel的最新解决方案，有望帮助企业应对推广AI项目时所面临的挑战，加速实现AIGC落地商用。Intel现有的Gaudi 2诞生于2022年5月，并于2023年7月正式引入中国，拥有极高的深度学习性能、效率，以及极高的性价比。它采用台积电7nm工艺制造，集成24个可编程的Tenor张量核心(TPC)、48MB SRAM缓存、21个10万兆内部互连以太网接口(ROCEv2 RDMA)、96GB HBM2E高带宽内存(总带宽2.4TB/s)、多媒体引擎等，支持PCIe 4.0 x16，最高功耗800W，可满足大规模语言模型、生成式AI模型的强算力需求。新一代的Gaudi 3面向AI训练和推理，升级为台积电5nm工艺，带来了2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的网络带宽、1.5倍的内存带宽。对比NVIDIA H100，它在流行LLM上的推理性能领先50％、训练时间快40％。Gaudi 3预计可大幅缩短70亿和130亿参数Llama2模型、1750亿参数GPT-3模型的训练时间。在Llama 70亿/700亿参数、Falcon 1800亿参数大型语言模型上，Gaudi 3的推理吞吐量和能效也都非常出色。Gaudi 3提供多种灵活的形态，包括OAM兼容夹层卡、通用基板、PCIe扩展卡，满足不同应用需求。Gaudi 3提供开放的、基于社区的软件，以及行业标准以太网网络，可以灵活地从单个节点扩展到拥有数千个节点的集群、超级集群和超大集群，支持大规模的推理、微调和训练。Gaudi 3 AI加速器具备高性能、经济实用、节能、可快速部署等优点，能够充分满足复杂性、成本效益、碎片化、数据可靠性、合规性等AI应用需求。Gaudi 3将于2024年第二季度面向OEM厂商出货，包括戴尔、慧与、联想、超威等。目前，Intel Gaudi加速器的行业客户及合作伙伴有NAVER、博世(Bosch)、IBM、Ola/Krutrim、NielsenIQ、Seekr、IFF、CtrlS Group、Bharti Airtel、Landing AI、Roboflow、Infosys，等等。此外，Intel还宣布联合Anyscale、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、SAS、VMware、Yellowbrick、Zilliz等伙伴，共同创建一个开放平台，助力企业推动AI创新。该计划旨在开发开放的、多供应商的AIGC系统，通过RAG（检索增强生成）技术，提供一流的部署便利性、性能和价值。初始阶段，Intel将利用至强处理器、Gaudi加速器，推出AIGC流水线的参考实现，发布技术概念框架，并继续加强Intel Tiber开发者云平台基础设施的功能。 ... PC版：手机版：

在Telegram中查看

相关推荐

AMD 正式发布 MI300 加速器，性能较英伟达 H100 芯片提高 60%

AMD 正式发布 MI300 加速器，性能较英伟达 H100 芯片提高 60% 在美国加州圣何塞举行的 AI 特别活动中，AMD 宣布正式推出其旗舰 AI GPU 加速器 MI300X，并称其性能比英伟达的 H100 芯片提高了 60%。据 AMD 介绍，新芯片为性能最高的芯片，拥有超过 1500 亿个晶体管。与英伟达 H100 芯片相比，AMD 新芯片的内存为其 2.4 倍，内存带宽为其 1.6 倍，训练性能与 H100 芯片相当，在运行 AI 模型方面则比英伟达快得多。、

Intel Gaudi 3 AI加速器可以卖给中国但挥刀砍掉一半

Intel Gaudi 3 AI加速器可以卖给中国但挥刀砍掉一半 Intel声称，它相比上代拥有2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的网络功耗为600W带宽、1.5倍的内存带宽，而对比NVIDIA H100 LLM推理性能领先50％、训练时间快40％。Gaudi 3的首发版本编号HL-325L，OAM形态，已经出货，功耗900W，风冷散热。它的中国特供版将在6月份推出，编号HL-328，功耗减半至450W，HMB内存、缓存、解码器等完全保留，但既然功耗少了一半，算力差不多也会被腰斩。10月份还会有个液冷版本HL-335，支持双路并联，但不能卖给中国，也没有特供版。PCIe扩展卡形态将在9月份出货，风冷，满血版编号HL-338，，中国特供版编号HL-388，功耗又被限制在450W。通用基板形态的编号为HLB-325，但具体规格和出货时间暂时不详。说起来，NVIDIA是最早做中国特供版AI加速器的，也就是H800、A800，后来也被禁售了，最近又拿出了H20、L20、L2、RTX 4090D，都能卖。AMD也设计了特供版Instinct MI309、MI388X，但都被美政府以算力还是太强为由给打回，而年底将要升级到MI350。 ... PC版：手机版：

英特尔为 Gaudi 3 AI加速器准备了中国特供版

英特尔为 Gaudi 3 AI加速器准备了中国特供版英特尔日前发布了性能优于 H100 的AI加速器 Gaudi 3 ，其强劲的性能预计无法满足美国政府对于出口芯片的监管要求。但本周，英特尔还发布了 Gaudi 3 人工智能加速器的中国版。其中 OAM 兼容夹层卡形态的中国版将在6月份推出，编号HL-328，功耗减半至450W，HMB内存、缓存、解码器等完全保留，预计算力将较常规版减半。PCIe扩展卡形态将在9月份出货，中国版编号HL-388，功耗同样减半至450W。通用基板形态的中国版编号为HLB-325，但具体规格和出货时间暂时不详。

：多语言、高性能、可定制：350亿参数的开源语言模型

：多语言、高性能、可定制：350亿参数的开源语言模型 - C4AI Command-R是一个350亿参数的高性能生成式模型，由Cohere和Cohere For AI联合开发。 - Command-R是一个大型语言模型，其开放权重针对多种用例进行了优化，包括推理、摘要和问答。 - Command-R具有多语言生成能力，在10种语言上进行了评估，并具有高性能的RAG(Retrieval-Augmented Generation)能力。 - 该模型的许可证为CC-BY-NC，使用时还需遵守C4AI的可接受使用政策。 - Command-R的上下文长度为128K，可以使用Hugging Face的Transformers库进行调用和使用。 - C4AI Command-R的发布展示了Cohere在开发大型语言模型方面的实力。350亿参数的模型规模处于业界领先水平，有望在多个应用领域取得突破。 - Command-R的开放权重和对多种用例的优化，为开发者和研究者提供了灵活性和可定制性。这有助于促进模型的应用和创新。 - 多语言生成能力和高性能RAG能力的结合，使Command-R在跨语言任务和知识密集型任务上具有独特优势。这可能推动自然语言处理技术在全球范围内的普及和应用。 - CC-BY-NC许可证和C4AI的可接受使用政策体现了Cohere对于负责任AI开发的重视。在开放模型的同时，设置合理的使用边界，有助于防范潜在的滥用风险。 - 基于Hugging Face生态系统发布模型，降低了用户的使用门槛。这种与主流开源社区的融合，有利于Command-R的推广和迭代。 - 尽管Command-R的开放权重提供了灵活性，但对于缺乏计算资源的中小型开发者而言，350亿参数的模型规模可能难以承受。这可能加剧AI开发的门槛和不平等。 - Command-R在多语言任务上的出色表现，可能促使更多开发者将其应用于跨文化交流和全球化业务。但过度依赖单一模型，可能忽视了不同语言和文化的独特性。 - 开放模型虽然有利于创新，但也可能加剧恶意使用和滥用的风险。即使有使用政策的约束，在实践中难以对每一个应用进行有效监管。这需要技术和制度的双重发力。

1000+亿晶体管怪物 Intel GPU Max诞生一年半就被放弃

1000+亿晶体管怪物 Intel GPU Max诞生一年半就被放弃据最新曝料，Intel已经告知合作伙伴，GPU Max系列将逐步停产退市，Intel AI加速器的重点将放在Guadi 2/3系列，还有明年的第二代GPU Max Falcon Shores。Ponte Vecchio GPU Max当年是Raja Koduri力推的项目，采用了5种不同制造工艺、47个不同模块，晶体管数量超过1000亿个，配备最多128个Xe-HPC高性能计算核心、128个光追核心、64MB一级缓存、108MB二级缓存、128GB HBM高带宽内存，满血功耗600W。Gaudi 3则是独立的AI加速器，不久前刚刚发布，升级台积电5nm工艺，配备了8个矩阵引擎、64个张量核心、96MB SRAM缓存、1024-bit 128GB HBM2E内存，满血功耗达900W。Intel声称，它相比上代拥有2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的网络带宽、1.5倍的内存带宽，而对比NVIDIA H100 LLM推理性能领先50％、训练时间快40％。针对中国市场，Gaudi 3将提供特殊版本，功耗最高限制在450W。Falcon Shores最初规划融合CPU、GPU，就像AMD Instinct MI300A，但后来改为纯GPU方案，融合设计则后续再说。 ... PC版：手机版：

阿里通义千问开源 320 亿参数模型

阿里通义千问开源 320 亿参数模型 4 月 7 日，阿里云通义千问开源 320 亿参数模型。通义千问此前已开源 5 亿、18 亿、40 亿、70 亿、140 亿和 720 亿参数 6 款大语言模型。此次开源的 320 亿参数模型，将在性能、效率和内存占用之间实现更理想的平衡。例如，相比通义千问 14B 开源模型，32B 在智能体场景下能力更强；相比通义千问 72B 开源模型，32B 的推理成本更低。通义千问团队希望 32B 开源模型能为企业和开发者提供更高性价比的模型选择。目前，通义千问共开源了 7 款大语言模型，在海内外开源社区累计下载量突破 300 万。来源，频道：@kejiqu 群组：@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人