腾讯开源了个新项目embedx。 embedx是基于 c++ 开发的、完全自研的分布式 embedding 训练和推理框架。它目

腾讯开源了个新项目embedx。embedx是基于c++开发的、完全自研的分布式embedding训练和推理框架。它目前支持图模型、深度排序、召回模型和图与排序、图与召回的联合训练模型等目前已经在腾讯的多个产品上应用。已经实现的模型:十亿级节点、千亿级边的图模型百亿级样本、百亿特征的深度排序、召回模型十亿级节点、千亿级边与百亿级样本、百亿特征的图与深度排序、图与深度召回的联合建模模型

相关推荐

封面图片

苹果发布 OpenELM 大语言模型,基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型,基于开源训练和推理框架的语言模型在WWDC24之前,苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为OpenELM。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的checkpoint和训练日志,以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

封面图片

OneFlow v0.9.0更新,分布式深度学习框架

OneFlowv0.9.0更新,分布式深度学习框架此更新包含640个提交和以下亮点:1.OneFlowv0.9.0增加了86个与PyTorch对齐的新API接口和运算符,并修复了104个与运算符兼容性相关的错误,从而提供了更好的PyTorchAPI和模型兼容性。在v0.9.0中,用户可以一键将更多PyTorch模型迁移到OneFlow,获得更快的性能。2.支持一键迁移StableDiffusion、GLM、YOLOv5等到OneFlow。3.更方便的模型迁移。Oneflow.load支持torch.save直接加载模型。4.通过新增的oneflow.mock_torch模块和mock方法,oneflow可以在不改变原有PyTorch脚本的情况下,一键迁移包含多个脚本的复杂PyTorch模型。5.GlobalTensor增加了一系列方便分布式编程的接口和方法,并修复了已知的相关bug。6.TheGraph发布了自动并行(version1)的新特性,支持自动搜索指定Placement下最快的SBP。使用GlobalTensor编写分布式模型时,用户无需考虑并行性。7.TheGraph添加了一系列与内存、执行速度、管道屏蔽和编译速度相关的优化,以提高性能并减少内存开销。8.Graph提供了一系列辅助调试的功能,包括分析内存日志、显示编译阶段的进度、计算图等。9.OneFlowIR提供了更多的编译优化功能。10.OneFlow的错误提示更加人性化,支持高亮显示错误内容,简化系统内部不必要的信息细节。就此而言,您可以直观地了解错误的位置和类型。11.增加了一系列算子优化和系统优化,包括Eager指令调度、高性能CUDA内核、开放多个内存池等。#框架

封面图片

腾讯混元文生图大模型开源训练代码

腾讯混元文生图大模型开源训练代码今日,腾讯混元文生图大模型(以下简称为混元DiT模型)宣布全面开源训练代码,同时对外开源混元DiTLoRA小规模数据集训练方案与可控制插件ControlNet。据腾讯混元方面介绍,这意味着,全球的企业与个人开发者、创作者们,都可以基于混元DiT训练代码进行精调,创造更具个性化的专属模型,进行更大自由度的创作;或基于混元DiT的代码进行修改和优化,基于此构建自身应用,推动技术的快速迭代和创新。(证券时报)

封面图片

可扩展的轻量级一站式训练、推理深度学习框架。它集成了各种高效的微调方法,如LoRA、QLoRA、阿里云自研的ResTuning-

可扩展的轻量级一站式训练、推理深度学习框架。它集成了各种高效的微调方法,如LoRA、QLoRA、阿里云自研的ResTuning-Bypass等,以及开箱即用的训练推理脚本,使开发者可以在单张商业级显卡上微调推理LLM&AIGC模型。此外,SWIFT与PEFT完全兼容,使开发者可以在ModelScope模型体系中使用PEFT的能力。目前支持的方法:LoRA:Adapter:Prompt:Side:ResTuning-Bypass所有在上提供的tuners主要能力:可以通过model-id使SWIFT或PEFT的方法使用ModelScopeHub中的模型在单次训练或推理中可以使用多个tuners支持调用activate_adapter或deactivate_adapter或set_active_adapters来使部分tuner激活或失活,用户可以在推理时同时加载多个独立的tuners在不同线程中并行使用。#框架

封面图片

通过4bit量化的模型压缩,OPPO的AlBoost推理引擎优化,以及与芯片厂家联合深度优化等多项举措,让70亿参数大模型真正地

通过4bit量化的模型压缩,OPPO的AlBoost推理引擎优化,以及与芯片厂家联合深度优化等多项举措,让70亿参数大模型真正地装进手机,并实现内存和存储空间的进一步优化,为端侧AI的性能与精度实现更好平衡。OPPO自主训练的大模型——AndesGPT,具有“个性专属、对话增强、端云协同”三大技术特征。坚持端云协同部署的AndesGPT,覆盖十亿至千亿以上多种不同参数规模,可通过分工、互补、协作的方式,根据不同场景的用户需求实现智能调度。通过独创的SwappedAttention技术,AndesGPT还解决了长期记忆带来首字推理延迟问题。

封面图片

国产AI大模型ChatGLM开测:为中文优化、支持CPU训练

国产AI大模型ChatGLM开测:为中文优化、支持国产CPU训练据介绍,对话机器人ChatGLM(alpha内测版:QAGLM),这是一个初具问答和对话功能的千亿中英语言模型,并针对中文进行了优化,现已开启邀请制内测,后续还会逐步扩大内测范围。与此同时,继开源GLM-130B千亿基座模型之后,我们正式开源最新的中英双语对话GLM模型:ChatGLM-6B,结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62亿参数的ChatGLM-6B虽然规模不及千亿模型,但大大降低了用户部署的门槛,并且已经能生成相当符合人类偏好的回答。ChatGLM参考了ChatGPT的设计思路,在千亿基座模型GLM-130B1 中注入了代码预训练,通过有监督微调(SupervisedFine-Tuning)等技术实现人类意图对齐。ChatGLM当前版本模型的能力提升主要来源于独特的千亿基座模型GLM-130B。它是不同于BERT、GPT-3以及T5的架构,是一个包含多目标函数的自回归预训练模型。2022年8月,我们向研究界和工业界开放了拥有1300亿参数的中英双语稠密模型GLM-130B1,该模型有一些独特的优势:双语: 同时支持中文和英文。高精度(英文): 在公开的英文自然语言榜单LAMBADA、MMLU和Big-bench-lite上优于GPT-3175B(API:davinci,基座模型)、OPT-175B和BLOOM-176B。高精度(中文): 在7个零样本CLUE数据集和5个零样本FewCLUE数据集上明显优于ERNIETITAN3.0260B和YUAN1.0-245B。快速推理: 首个实现INT4量化的千亿模型,支持用一台4卡3090或8卡2080Ti服务器进行快速且基本无损推理。可复现性: 所有结果(超过30个任务)均可通过我们的开源代码和模型参数复现。跨平台: 支持在国产的海光DCU、华为升腾910和申威处理器及美国的英伟达芯片上进行训练与推理。2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测2,GLM-130B是亚洲唯一入选的大模型。在与OpenAI、谷歌大脑、微软、英伟达、脸书的各大模型对比中,评测报告显示GLM-130B在准确性和恶意性指标上与GPT-3175B(davinci)接近或持平,鲁棒性和校准误差在所有千亿规模的基座大模型(作为公平对比,只对比无指令提示微调模型)中表现不错(下图)。图1.斯坦福大学基础模型中心对全球30个大模型的评测结果(2022年11月)...PC版:https://www.cnbeta.com.tw/articles/soft/1349501.htm手机版:https://m.cnbeta.com.tw/view/1349501.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人