Panmnesia发布CXL协议 允许AI GPU以最小的延迟利用各类内存

Panmnesia发布CXL协议 允许AI GPU以最小的延迟利用各类内存 目前的人工智能加速器仅限于板载内存,而制造商只能提供非常有限的 HBM。随着数据集的不断增长和对功耗的需求,业界正专注于增加更多的人工智能 GPU,而考虑到其所占用的财务和制造资源,这种方法从长远来看是不可持续的。有鉴于此,由韩国 KAIST 研究所支持的公司 Panmnesia 推出了一个 CXL IP,可以让 GPU 利用 DRAM 甚至 SSD 的内存,扩展内置的 HBM。为了实现连接,CXL 采用了 PCIe 链接,确保在消费者中得到广泛采用。不过,这也有一个问题。传统的人工智能加速器缺乏必要的子系统,无法直接连接并利用 CXL 进行内存扩展,而且 UVM(统一虚拟内存)等解决方案的速度相当慢,这就失去了初衷。不过,作为一种解决方案,Panmnesia 开发出了自己的符合 CXL 3.1 标准的 Root Complex 芯片,它有多个端口,通过 PCIe 总线连接 GPU 和外部内存,HDM(主机管理设备内存)解码器则充当连接的桥梁,管理内存分配和转换。有趣的是,Panmnesia 决定将他们的解决方案(CXL-Opt)与三星和 Meta 开发的原型产品(他们称之为"CXL-Proto")进行基准测试。令我们惊讶的是,CXL-Opt 的往返延迟(即数据从 GPU 传输到内存再返回所需的时间)大大降低。 CXL-Opt 的延迟时间为两位数纳秒,而 CXL-Proto 的延迟时间为 250ns。除此之外,CXL-Opt 的执行时间远远少于 UVM 解决方案,因为它的 IPC 性能速度是 UVM 的 3.22 倍。Panmnesia 的解决方案可以在市场上取得巨大进步,因为它是堆叠 HBM 芯片和实现更高效解决方案之间的中介。鉴于该公司是首批拥有创新 CXL IP 的公司之一,如果这一技术获得认可,Panmnesia 将受益匪浅。 ... PC版: 手机版:

相关推荐

封面图片

SK hynix宣布2026年量产HBM4 为下一代AI GPU做准备

SK hynix宣布2026年量产HBM4 为下一代AI GPU做准备 随着人工智能在市场上的应用迅速增加,我们在迈向未来的过程中需要更强的计算能力,值得注意的是,HBM 在人工智能计算如何定位自己的现代生活中发挥了至关重要的作用,因为它是制造人工智能加速器的关键部件。SK hynix 副总裁 Kim Chun-hwan 在 2024 年韩国半导体展(SEMICON Korea 2024)上发表主题演讲时透露,该公司打算在 2026 年之前开始量产 HBM4,并声称这将推动人工智能市场的巨大增长。他认为,除了早日实现下一代产品过渡之外,重要的是要认识到 HBM 行业面临着巨大的需求;因此,创造一种既能无缝供应又具有创新性的解决方案更为重要。Kim 认为,到 2025 年,HBM 市场预计将增长高达 40%,并已提前定位,以充分利用这一市场。关于对 HBM4 的期待,Trendforce分享的路线图预计,首批 HBM4 样品的每个堆栈容量将高达 36 GB,而完整规格预计将在 2024-2025 年下半年左右由 JEDEC 发布。首批客户样品和可用性预计将于 2026 年推出,因此距离我们看到新的高带宽内存人工智能解决方案的实际应用还有很长的时间。目前还不确定哪种类型的人工智能产品将采用新工艺,因此我们暂时无法做出任何预测。随着 SK hynix 的加入,HBM 市场的竞争似乎会变得更加激烈,哪家公司会崛起并登上王者宝座,让我们拭目以待。 ... PC版: 手机版:

封面图片

在人工智能热潮中 SK海力士酝酿“差异化”HBM内存

在人工智能热潮中 SK海力士酝酿“差异化”HBM内存 SK Hynix 高级封装开发主管 Hoyoung Son 以副总裁的身份表示:"开发客户专用的人工智能存储器需要一种新方法,因为技术的灵活性和可扩展性变得至关重要。"在性能方面,采用 1024 位接口的 HBM 内存发展相当迅速:从 2014 - 2015 年的 1 GT/s 数据传输速率开始,到最近推出的 HBM3E 内存设备,其数据传输速率已达到 9.2 GT/s - 10 GT/s。随着 HBM4 的推出,内存将过渡到 2048 位接口,这将确保带宽比 HBM3E 有稳步提升。但这位副总裁表示,有些客户可能会受益于基于 HBM 的差异化(或半定制)解决方案。Hoyoung Son 在接受BusinessKorea 采访时说:"为了实现多样化的人工智能,人工智能存储器的特性也需要变得更加多样化。我们的目标是拥有能够应对这些变化的各种先进封装技术。我们计划提供能够满足任何客户需求的差异化解决方案。"由于采用 2048 位接口,根据我们从有关即将推出的标准的官方和非官方信息中了解到的情况,许多(如果不是绝大多数)HBM4 解决方案很可能是定制的,或者至少是半定制的。一些客户可能希望继续使用内插器(但这一次内插器将变得非常昂贵),而另一些客户则倾向于使用直接接合技术将 HBM4 模块直接安装在逻辑芯片上,但这种技术也很昂贵。生产差异化的 HBM 产品需要复杂的封装技术,包括(但肯定不限于)SK Hynix 的高级大规模回流模塑底部填充(MR-RUF)技术。鉴于该公司在 HBM 方面的丰富经验,它很可能会推出其他产品,尤其是差异化产品。Hoyoung Son说:"要实现不同类型的人工智能,人工智能存储器的特性也需要更加多样化。我们的目标是拥有一系列先进的封装技术,以应对不断变化的技术环境。展望未来,我们计划提供差异化的解决方案,以满足所有客户的需求。" ... PC版: 手机版:

封面图片

:全新的文本转语音(TTS)解决方案,具有高度自定义和灵活性,支持Linux和Windows系统,需要2GB的GPU内存进行推理

:全新的文本转语音(TTS)解决方案,具有高度自定义和灵活性,支持Linux和Windows系统,需要2GB的GPU内存进行推理,使用Flash-Attn进行推理和训练,支持VQGAN和Text2Semantic模型

封面图片

Rambus推出GDDR7内存控制器IP:提供48 Gbps速率和192GB/s带宽

Rambus推出GDDR7内存控制器IP:提供48 Gbps速率和192GB/s带宽 人工智能 2.0 训练过程的输出是一个推理模型,可用于根据用户的提示创建新的多模态内容。由于准确性和保真度会随着模型规模的扩大而提高,因此推理模型的规模也在不断扩大。随着人工智能推理变得越来越普遍,并从数据中心转移到边缘和终端,这促使整个计算环境需要更强大的处理引擎和定制的高性能内存解决方案。GPU 一直是推理引擎的首选,在服务器和台式机等边缘和终端应用中,GPU 一直使用 GDDR6 内存。然而,GDDR6 已经达到了标准 NRZ 信号每秒 24 千兆比特(Gbps)数据传输速率的实际极限。为了满足未来 GPU 的带宽需求,需要使用新信号方案的新一代 GDDR。使用 PAM3 信号的 GDDR7 内存可将数据传输速率提高到 40 Gbps 或更高。Rambus介绍说:GDDR 目前已达到 GDDR7 规格水平,是当今最先进的图形内存解决方案,其性能发展蓝图达 48Gbps,每个 GDDR7 内存设备的内存吞吐量达 192 GB/s。在带宽这一关键参数上,GDDR7 内存确实大放异彩。在 32 Gbps 的数据传输速率和 32 位宽接口条件下,GDDR7 设备可提供 128 GB/s 的内存带宽,是任何其他解决方案的两倍多。GDDR7 内存为人工智能推理提供了最佳的速度、带宽和延迟性能。Rambus 已经在提供 HBM、PCIe 和 CXL 控制器 IP,现在又推出了业界首个GDDR7存储器控制器 IP。Rambus GDDR7 控制器支持 40 Gbps 运行,为 GDDR7 存储器设备提供160GB/s的吞吐量,比业界吞吐量最高的 GDDR6 控制器(同样来自 Rambus)提高了 67%。Rambus GDDR7 控制器实现了新一代 GDDR 内存部署,适用于人工智能加速器、图形和高性能计算 (HPC) 应用。Rambus GDDR7 控制器主要功能支持包括 PAM3 和 NRZ 信号在内的所有 GDDR7 链路功能支持多种 GDDR7 设备尺寸和速度经过优化,可在各种流量情况下实现高效率和低延迟灵活的 AXI 接口支持低功耗支持(自刷新、休眠自刷新、动态频率缩放等)可靠性、可用性和可维护性(RAS)功能如端到端数据路径奇偶校验、存储寄存器奇偶校验保护等。全面的记忆测试支持可为第三方 PHY 提供集成支持利用最新的 GDDR7 VIP 和内存供应商内存模型进行验证 ... PC版: 手机版:

封面图片

Google:引领AI推理工作量的是CPU而非GPU

Google:引领AI推理工作量的是CPU而非GPU 人工智能的生命周期分为两个部分:训练和推理。在训练过程中,需要大量的计算能力和巨大的内存容量,以便将不断扩大的人工智能模型装入内存。最新的模型,如 GPT-4 和 Gemini,包含数十亿个参数,需要数千个 GPU 或其他加速器并行工作,才能高效地进行训练。另一方面,推理所需的计算强度较低,但仍能从加速中获益。在推理过程中,会对预先训练好的模型进行优化和部署,以便对新数据进行预测。虽然推理所需的计算量比训练少,但延迟和吞吐量对实时推理至关重要。Google发现,虽然 GPU 是训练阶段的理想选择,但模型通常在 CPU 上进行优化和推理。这意味着,有些客户出于各种原因选择 CPU 作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端 GPU 或专门的人工智能加速器相比,CPU 往往更便宜,也更容易获得。对于许多应用而言,CPU 能以较低的成本提供足够的推理性能。CPU 还具有灵活性。由于大多数系统已经配备了 CPU,它们为较小的人工智能模型提供了便捷的部署途径。GPU 通常需要专门的库和驱动程序,而基于 CPU 的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU 擅长大规模并行推理吞吐量。但 CPU 通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用,CPU 推理可能是首选。此外,CPU 对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔 AVX-512 和 AMX 等新指令的推动下,性能不断提高,仅靠 CPU 就能流畅运行人工智能工作负载,如果服务器配置了不止一个插槽,意味着有更多的人工智能引擎存在,服务器就能高效处理数十亿参数大小的人工智能模型,则性能尤其出色。英特尔指出,一般来说,参数不超过200 亿的模型在 CPU 上可以正常运行,而更大的模型则必须使用专门的加速器。像 GPT-4、Claude 和 Gemini 这样的人工智能模型都是庞大的模型,参数规模可达一万亿以上。然而,它们是多模式的,也就是说,它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档,以回答客户支持问题。对于这种解决方案来说,运行 GPT-4 这样的模型就显得多余了。相比之下,像LLAMA 2或 Mistral 这样小得多的模型可以很好地实现类似目的,而不需要第三方 API 访问,只需在本地或云服务器上运行几个 CPU 即可。这就降低了总体拥有成本(TCO),简化了人工智能管道。 ... PC版: 手机版:

封面图片

英伟达发布下一代AI计算芯片 HGX H200 GPU

英伟达发布下一代AI计算芯片 HGX H200 GPU NVIDIA 今天宣布推出 NVIDIA HGX™ H200,为全球领先的 AI 计算平台带来强大动力。该平台基于 NVIDIA Hopper™ 架构,配备 NVIDIA H200 Tensor Core GPU 和高级内存,可处理生成 AI 和高性能计算工作负载的海量数据。 NVIDIA H200 是首款提供 HBM3e 的 GPU,HBM3e 是更快、更大的内存,可加速生成式 AI 和大型语言模型,同时推进 HPC 工作负载的科学计算。借助 HBM3e,NVIDIA H200 以每秒 4.8 TB 的速度提供 141GB 内存,与前一代 NVIDIA A100 相比,容量几乎翻倍,带宽增加 2.4 倍。 全球领先的服务器制造商和云服务提供商采用 H200 的系统预计将于 2024 年第二季度开始发货。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人