一个大模型推理系统,仅需对现有项目进行极少量修改,即可完成自定义大模型的推理部署,获得并行扩展的超线性加速。

一个大模型推理系统,仅需对现有项目进行极少量修改,即可完成自定义大模型的推理部署,获得并行扩展的超线性加速。 对于 AI 大模型分布式推理加速,相比英伟达 FasterTransformer 可提升 50% 以上。 项目以 “高性能、高可用、可伸缩” 为理念,深入单实例多设备推理场景,在性能和易用性上兼具优势。

相关推荐

封面图片

国人在 GitHub 开源的一个项目:Colossal-AI,仅需极少量修改,即可让现有深度学习,在单张消费级显卡上,完成大

国人在 GitHub 开源的一个项目:Colossal-AI,仅需极少量修改,即可让现有深度学习项目,在单张消费级显卡上,完成大模型训练,极大降低了项目研发成本! 简而言之,有了这个开源项目后,每个人都可以在家训练 AI 大模型!尤其是大幅度降低了 AI 大模型微调、推理等下游任务和应用部署的门槛

封面图片

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目,GPU 加速高达 80%,内存减少 50%。

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目,GPU 加速高达 80%,内存减少 50%。 主要特点有: GPU 加速高达 80%,内存减少 50%,内核优化包括FlashAttention、Fused AdaLN、Fused Layernorm内核。 FastSeq:一种新颖的序列并行方法,专为激活大小较大但参数大小较小的类似 DiT 的工作负载而设计。 使用方便,通过一些生产线更改即可获得巨大的性能提升,用户不需要了解分布式训练的实现。 支持文本到图像和文本到视频生成的完整流程。 项目地址:

封面图片

OpenAI开发系统“自定义”AI进化等级 自认接近第二级类人推理

OpenAI开发系统“自定义”AI进化等级 自认接近第二级类人推理 美东时间7月11日周四,OpenAI的发言人称,OpenAI在本周二的公司全体会议上与员工分享了新的分类系统,计划与投资者和公司外部人士分享这些等级的信息。OpenAI的系统划分了五个AI水平,按一到五的数字由低到高排列等级。OpenAI的高管告诉员工,公司认为目前自身产品处于第一级,但即将达到第二级,也就是,可以完成基本问题解决任务的系统,类似于拥有博士学位但无法使用任何工具的人。具体来说,OpenAI系统的五个等级分别是:媒体援引知情人士的消息称,在上述周二的全体会议上,OpenAI的领导层演示了一个涉及AI模型GPT-4的研究项目,OpenAI 认为该模型展示了一些可以达到类似人类推理的新技能。本周四OpenAI的发言人表示,OpenAI一直在内部测试新功能,这是业内的常见做法。对于OpenAI开发AI分级系统的消息,有网友表示,担心AI超越人类可能带来的风险,不知道那对经济和就业有何影响。今年3月曝光的一份文件显示,OpenAI计划,在2027年以前,开发出人类水平的AGI。OpenAI2022年就开始训练一个125万亿参数的多模态模型,该模型名为Arrakis或Q*,原本计划在2025年作为GPT-5发布,但因推理成本高而取消。OpenAI此后计划,2027年发布的Q 2025(GPT-8)将实现完全的AGI。今年5月,OpenAI发布新旗舰AI模型GPT-4o。它面向所有用户、包括免费用户,最快232毫秒响应音频输入,平均响应时间和人类相似;相比GPT-4 Turbo速度快两倍,成本降低50%,API速率限制提高五倍。上月传出GPT-5可能大幅推迟上线的消息。OpenAI首席技术官Mira Murati称,GPT-5有望在2025年底或2026年初推出。这一发布时间与早期传闻有较大出入,市场曾预测GPT-5可能在2023年底或2024年夏季发布,不过,Murati透露GPT-5的性能将迎来重大飞跃,在特定任务中达到博士级智能水平。据悉,GPT-5内部代号为“Gobi”和“Arrakis”,是一个具有52万亿参数的多模态模型,上一代GPT-4参数约为2万亿。这一庞大的参数规模暗示了其潜在的强大能力。Murati将GPT-4到GPT-5的进步比作从高中水平到大学水平的跨越,表明新模型在复杂性和能力上将有显著提升。 ... PC版: 手机版:

封面图片

:一站式大模型训练及应用构建的解决方案,其覆盖了从数据处理到模型评估、从训练到部署、从想法到服务等整个流程。在本项目中,用户可以

:一站式大模型训练及应用构建的解决方案,其覆盖了从数据处理到模型评估、从训练到部署、从想法到服务等整个流程。在本项目中,用户可以轻松地通过本项目进行模型训练并一键生成所需的产品服务。 本项目的优势主要体现在以下三点: 总结了不同应用场景下的专业知识和最佳实践,以保证模型在实际生产中的表现优异。 集成了高性能模型并行框架,有效地减少了训练和推理时的算力开销。 用户可以基于自身需要定制化模型及服务,便捷且自由度高。

封面图片

OpenAI正在开发新推理技术模型 代号草莓

OpenAI正在开发新推理技术模型 代号草莓 根据路透社 5 月份看到的一份 OpenAI 内部文件副本,OpenAI 内部团队正在开发 Strawberry。路透社无法确定该文件的具体发布日期,该文件详细说明了 OpenAI 打算如何使用 Strawberry 进行研究的计划。消息人士向路透社描述了该计划,称其为一项正在进行的工作。无法确定 Strawberry 距离公开发布还有多久。这位知情人士表示,即使在 OpenAI 内部,Strawberry 的工作原理也是一个严格保密的秘密。消息人士称,该文件描述了一个使用 Strawberry 模型的项目,目的是使公司的人工智能不仅能够生成查询的答案,而且能够提前规划,自主可靠的浏览互联网,从而执行 OpenAI 所称的深度研究。根据对十多位人工智能研究人员的采访,这是迄今为止人工智能模型尚未解决的问题。当被问及 Strawberry 和本文报道的细节时,OpenAI 公司发言人在一份声明中表示:我们希望我们的人工智能模型能够像我们一样看待和理解世界。持续研究新的人工智能能力是业内的常见做法,大家共同相信这些系统的推理能力会随着时间的推移而提高。该发言人没有直接回答有关草莓的问题。Strawberry 项目前身是 Q*,路透社去年报道称,该项目在公司内部已被视为一项突破。两位消息人士称,今年早些时候,他们观看了 OpenAI 工作人员告诉他们 Q* 演示,该演示能够回答当今商用模型无法解决的棘手科学和数学问题。据彭博社报道,周二,OpenAI 在一次内部全体会议上展示了一项研究项目的演示,该项目声称拥有新的类似人类的推理技能,OpenAI 发言人证实了此次会面,但拒绝透露会议内容细节。路透社无法确定所展示的项目是否是 Strawberry。知情人士表示,OpenAI 希望这项创新能够大幅提高其 AI 模型的推理能力,并补充说,Strawberry 涉及一种在非常大的数据集上进行预训练后处理 AI 模型的专门方法。接受路透社采访的研究人员表示,推理是人工智能实现人类或超人类水平智能的关键。虽然大型语言模型已经能够总结密集的文本,并以比人类快得多的速度撰写优美的散文,但该技术往往无法解决常识性问题,而这些问题的解决方案对人类来说似乎是直观的,例如识别逻辑谬误和玩井字游戏。当模型遇到这类问题时,它经常会产生幻觉,产生虚假信息。路透社采访的人工智能研究人员普遍认为,在人工智能的背景下,推理涉及形成一个模型,使人工智能能够提前规划,反映物理世界的运作方式,并可靠地解决具有挑战性的多步骤问题。提高人工智能模型的推理能力被视为释放模型能力的关键,包括实现重大科学发现、规划和构建新的软件应用程序等。OpenAI 首席执行官 Sam Altman今年早些时候表示,在人工智能领域最重要的进步领域将是推理能力。其他公司,如Google、Meta 和微软,也在尝试不同的技术来提高人工智能模型的推理能力,大多数进行人工智能研究的学术实验室也是如此。然而,研究人员对大型语言模型 (LLM) 是否能够将想法和长期规划融入预测方式的看法不一。例如,现代人工智能的先驱之一、在 Meta 工作的 Yann LeCun 经常说 LLM 不具备像人类一样的推理能力。人工智能挑战知情人士称,Strawberry 是 OpenAI 克服这些挑战计划的关键组成部分。路透社看到的文件描述了 Strawberry 想要实现的目标,但没有说明如何实现。据四位听过该公司宣传的人士透露,近几个月来,该公司一直在私下向开发者和其他外部人士发出信号,称其即将发布具有更先进推理能力的技术。他们拒绝透露姓名,因为他们无权谈论私人事务。一位消息人士称,Strawberry 采用了一种特殊的方式,即对 OpenAI 的生成式 AI 模型进行后训练,或者在对大量通用数据进行训练后,对基础模型进行调整,以特定方式磨练其性能。开发模型的后训练阶段涉及“微调”等方法,这是当今几乎所有语言模型都采用的一种方法,它有多种形式,例如让人类根据模型的响应向模型提供反馈,并为其提供好答案和坏答案的例子。一位知情人士称,Strawberry 与斯坦福大学 2022 年开发的一种名为自学推理机或STaR的方法有相似之处。STaR 的创建者之一、斯坦福大学教授诺亚·古德曼 (Noah Goodman) 告诉路透社,STaR 使人工智能模型能够通过迭代创建自己的训练数据将自己“引导”到更高的智能水平,理论上可以用来让语言模型超越人类水平的智能。古德曼说:我认为这既令人兴奋又令人恐惧……如果事情继续朝这个方向发展,我们人类就需要认真思考一些问题了。古德曼与 OpenAI 没有任何关系,对 Strawberry 也不熟悉。该文件称,OpenAI 为 Strawberry 瞄准的功能之一是执行长期任务 (LHT),指的是需要模型提前规划并在较长时间内执行一系列操作的复杂任务,第一位消息人士解释说。根据 OpenAI 内部文件,OpenAI 正在利用公司所谓的深度研究数据集创建、训练和评估模型。路透社无法确定该数据集中包含哪些内容,也无法确定延长的时间段意味着什么。根据该文件和其中一位消息人士的说法,OpenAI 特别希望其模型能够利用这些功能进行研究,在CUA(即计算机使用代理)的帮助下自主浏览网页,并根据其发现采取行动。OpenAI 还计划测试其在软件和机器学习工程师工作方面的能力。 ... PC版: 手机版:

封面图片

Intel发布Gaudi 3 AI加速器:4倍性能提升、无惧1800亿参数大模型

Intel发布Gaudi 3 AI加速器:4倍性能提升、无惧1800亿参数大模型 数据显示,预计到2030年,全球半导体市场规模将达1万亿美元,AI是主要推动力,不过在2023年,只有10%的企业能够成功将其AIGC项目产品化。Intel的最新解决方案,有望帮助企业应对推广AI项目时所面临的挑战,加速实现AIGC落地商用。Intel现有的Gaudi 2诞生于2022年5月,并于2023年7月正式引入中国,拥有极高的深度学习性能、效率,以及极高的性价比。它采用台积电7nm工艺制造,集成24个可编程的Tenor张量核心(TPC)、48MB SRAM缓存、21个10万兆内部互连以太网接口(ROCEv2 RDMA)、96GB HBM2E高带宽内存(总带宽2.4TB/s)、多媒体引擎等,支持PCIe 4.0 x16,最高功耗800W,可满足大规模语言模型、生成式AI模型的强算力需求。新一代的Gaudi 3面向AI训练和推理,升级为台积电5nm工艺,带来了2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的网络带宽、1.5倍的内存带宽。对比NVIDIA H100,它在流行LLM上的推理性能领先50%、训练时间快40%。Gaudi 3预计可大幅缩短70亿和130亿参数Llama2模型、1750亿参数GPT-3模型的训练时间。在Llama 70亿/700亿参数、Falcon 1800亿参数大型语言模型上,Gaudi 3的推理吞吐量和能效也都非常出色。Gaudi 3提供多种灵活的形态,包括OAM兼容夹层卡、通用基板、PCIe扩展卡,满足不同应用需求。Gaudi 3提供开放的、基于社区的软件,以及行业标准以太网网络,可以灵活地从单个节点扩展到拥有数千个节点的集群、超级集群和超大集群,支持大规模的推理、微调和训练。Gaudi 3 AI加速器具备高性能、经济实用、节能、可快速部署等优点,能够充分满足复杂性、成本效益、碎片化、数据可靠性、合规性等AI应用需求。Gaudi 3将于2024年第二季度面向OEM厂商出货,包括戴尔、慧与、联想、超威等。目前,Intel Gaudi加速器的行业客户及合作伙伴有NAVER、博世(Bosch)、IBM、Ola/Krutrim、NielsenIQ、Seekr、IFF、CtrlS Group、Bharti Airtel、Landing AI、Roboflow、Infosys,等等。此外,Intel还宣布联合Anyscale、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、SAS、VMware、Yellowbrick、Zilliz等伙伴,共同创建一个开放平台,助力企业推动AI创新。该计划旨在开发开放的、多供应商的AIGC系统,通过RAG(检索增强生成)技术,提供一流的部署便利性、性能和价值。初始阶段,Intel将利用至强处理器、Gaudi加速器,推出AIGC流水线的参考实现,发布技术概念框架,并继续加强Intel Tiber开发者云平台基础设施的功能。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人