腾讯开源了个新项目embedx。 embedx是基于 c++ 开发的、完全自研的分布式 embedding 训练和推理框架。它目

腾讯开源了个新项目embedx。embedx是基于c++开发的、完全自研的分布式embedding训练和推理框架。它目前支持图模型、深度排序、召回模型和图与排序、图与召回的联合训练模型等目前已经在腾讯的多个产品上应用。已经实现的模型：十亿级节点、千亿级边的图模型百亿级样本、百亿特征的深度排序、召回模型十亿级节点、千亿级边与百亿级样本、百亿特征的图与深度排序、图与深度召回的联合建模模型

在Telegram中查看

相关推荐

苹果发布 OpenELM 大语言模型，基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型，基于开源训练和推理框架的语言模型在WWDC24之前，苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”，名为OpenELM。苹果这次发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的checkpoint和训练日志，以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

OneFlow v0.9.0更新，分布式深度学习框架

OneFlowv0.9.0更新，分布式深度学习框架此更新包含640个提交和以下亮点：1.OneFlowv0.9.0增加了86个与PyTorch对齐的新API接口和运算符，并修复了104个与运算符兼容性相关的错误，从而提供了更好的PyTorchAPI和模型兼容性。在v0.9.0中，用户可以一键将更多PyTorch模型迁移到OneFlow，获得更快的性能。2.支持一键迁移StableDiffusion、GLM、YOLOv5等到OneFlow。3.更方便的模型迁移。Oneflow.load支持torch.save直接加载模型。4.通过新增的oneflow.mock_torch模块和mock方法，oneflow可以在不改变原有PyTorch脚本的情况下，一键迁移包含多个脚本的复杂PyTorch模型。5.GlobalTensor增加了一系列方便分布式编程的接口和方法，并修复了已知的相关bug。6.TheGraph发布了自动并行（version1）的新特性，支持自动搜索指定Placement下最快的SBP。使用GlobalTensor编写分布式模型时，用户无需考虑并行性。7.TheGraph添加了一系列与内存、执行速度、管道屏蔽和编译速度相关的优化，以提高性能并减少内存开销。8.Graph提供了一系列辅助调试的功能，包括分析内存日志、显示编译阶段的进度、计算图等。9.OneFlowIR提供了更多的编译优化功能。10.OneFlow的错误提示更加人性化，支持高亮显示错误内容，简化系统内部不必要的信息细节。就此而言，您可以直观地了解错误的位置和类型。11.增加了一系列算子优化和系统优化，包括Eager指令调度、高性能CUDA内核、开放多个内存池等。#框架

腾讯混元文生图大模型开源训练代码

腾讯混元文生图大模型开源训练代码今日，腾讯混元文生图大模型（以下简称为混元DiT模型）宣布全面开源训练代码，同时对外开源混元DiTLoRA小规模数据集训练方案与可控制插件ControlNet。据腾讯混元方面介绍，这意味着，全球的企业与个人开发者、创作者们，都可以基于混元DiT训练代码进行精调，创造更具个性化的专属模型，进行更大自由度的创作；或基于混元DiT的代码进行修改和优化，基于此构建自身应用，推动技术的快速迭代和创新。(证券时报)

可扩展的轻量级一站式训练、推理深度学习框架。它集成了各种高效的微调方法，如LoRA、QLoRA、阿里云自研的ResTuning-

可扩展的轻量级一站式训练、推理深度学习框架。它集成了各种高效的微调方法，如LoRA、QLoRA、阿里云自研的ResTuning-Bypass等，以及开箱即用的训练推理脚本，使开发者可以在单张商业级显卡上微调推理LLM&AIGC模型。此外，SWIFT与PEFT完全兼容，使开发者可以在ModelScope模型体系中使用PEFT的能力。目前支持的方法：LoRA：Adapter：Prompt:Side:ResTuning-Bypass所有在上提供的tuners主要能力：可以通过model-id使SWIFT或PEFT的方法使用ModelScopeHub中的模型在单次训练或推理中可以使用多个tuners支持调用activate_adapter或deactivate_adapter或set_active_adapters来使部分tuner激活或失活，用户可以在推理时同时加载多个独立的tuners在不同线程中并行使用。#框架

通过4bit量化的模型压缩，OPPO的AlBoost推理引擎优化，以及与芯片厂家联合深度优化等多项举措，让70亿参数大模型真正地

通过4bit量化的模型压缩，OPPO的AlBoost推理引擎优化，以及与芯片厂家联合深度优化等多项举措，让70亿参数大模型真正地装进手机，并实现内存和存储空间的进一步优化，为端侧AI的性能与精度实现更好平衡。OPPO自主训练的大模型——AndesGPT，具有“个性专属、对话增强、端云协同”三大技术特征。坚持端云协同部署的AndesGPT，覆盖十亿至千亿以上多种不同参数规模，可通过分工、互补、协作的方式，根据不同场景的用户需求实现智能调度。通过独创的SwappedAttention技术，AndesGPT还解决了长期记忆带来首字推理延迟问题。

国产AI大模型ChatGLM开测：为中文优化、支持CPU训练

国产AI大模型ChatGLM开测：为中文优化、支持国产CPU训练据介绍，对话机器人ChatGLM（alpha内测版：QAGLM），这是一个初具问答和对话功能的千亿中英语言模型，并针对中文进行了优化，现已开启邀请制内测，后续还会逐步扩大内测范围。与此同时，继开源GLM-130B千亿基座模型之后，我们正式开源最新的中英双语对话GLM模型：ChatGLM-6B，结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4量化级别下最低只需6GB显存）。经过约1T标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62亿参数的ChatGLM-6B虽然规模不及千亿模型，但大大降低了用户部署的门槛，并且已经能生成相当符合人类偏好的回答。ChatGLM参考了ChatGPT的设计思路，在千亿基座模型GLM-130B1 中注入了代码预训练，通过有监督微调（SupervisedFine-Tuning）等技术实现人类意图对齐。ChatGLM当前版本模型的能力提升主要来源于独特的千亿基座模型GLM-130B。它是不同于BERT、GPT-3以及T5的架构，是一个包含多目标函数的自回归预训练模型。2022年8月，我们向研究界和工业界开放了拥有1300亿参数的中英双语稠密模型GLM-130B1，该模型有一些独特的优势：双语：同时支持中文和英文。高精度（英文）：在公开的英文自然语言榜单LAMBADA、MMLU和Big-bench-lite上优于GPT-3175B（API:davinci，基座模型）、OPT-175B和BLOOM-176B。高精度（中文）：在7个零样本CLUE数据集和5个零样本FewCLUE数据集上明显优于ERNIETITAN3.0260B和YUAN1.0-245B。快速推理：首个实现INT4量化的千亿模型，支持用一台4卡3090或8卡2080Ti服务器进行快速且基本无损推理。可复现性：所有结果（超过30个任务）均可通过我们的开源代码和模型参数复现。跨平台：支持在国产的海光DCU、华为升腾910和申威处理器及美国的英伟达芯片上进行训练与推理。2022年11月，斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测2，GLM-130B是亚洲唯一入选的大模型。在与OpenAI、谷歌大脑、微软、英伟达、脸书的各大模型对比中，评测报告显示GLM-130B在准确性和恶意性指标上与GPT-3175B(davinci)接近或持平，鲁棒性和校准误差在所有千亿规模的基座大模型（作为公平对比，只对比无指令提示微调模型）中表现不错（下图）。图1.斯坦福大学基础模型中心对全球30个大模型的评测结果（2022年11月）...PC版：https://www.cnbeta.com.tw/articles/soft/1349501.htm手机版：https://m.cnbeta.com.tw/view/1349501.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人