国产中文大语言模型“天河天元”发布由天河超算训练

国产中文大语言模型“天河天元”发布由天河超算训练国家超算天津中心在大会上发布了“天河E级智能计算开放创新平台”和“天河天元大模型”。据介绍，中文大语言模型的数据集非常稀缺。国家超算天津中心搜集整理了网页数据、各种开源训练数据、中文小说数据、古文数据、百科数据、新闻数据，以及专业领域的中医、医药、问诊、法律等多种数据集。训练数据集总token数达到350B，最终训练打造出了自己的中文语言大模型——天河天元大模型。据悉，“天河E级智能计算开放创新平台”将带来突破百亿亿次的跨模态的超级计算算力，支撑传统的科学工程计算，并服务智能混合计算，打造全方位的算力赋能创新和数字经济高质量发展载体。...PC版：https://www.cnbeta.com.tw/articles/soft/1360799.htm手机版：https://m.cnbeta.com.tw/view/1360799.htm

在Telegram中查看

相关推荐

新一代国产超算“天河星逸”发布

新一代国产超算“天河星逸”发布发布现场。主办方供图据介绍，“天河星逸”支持高性能计算、AI大模型训练以及大数据分析各类应用模式，将进一步提升广州超算中心的多领域服务能力，切实满足各行业领域的超算应用需求，为前沿科技突破、战略工程建设、产业升级转型提供强劲的高端算力支撑。“天河二号”于2013年研制成功，并连续6次夺得TOP500世界超算六连冠，是我国超算系统研制进入世界领先行列的重要标志。“天河二号”研制工程总设计师、中国工程院院士廖湘科指出，国产超算应用一直是我国超算发展面临的一大挑战。国家超算广州中心开发了一系列面向领域的超算应用平台，自主研发了“星光”国产多模式超算融合应用支撑平台，构建起国产超算系统与各领域超算应用的桥梁，支持各行各业取得了显著的应用实效，有力拓展了国产超算应用生态。为进一步推动算力并网，聚合超级计算机为代表的算力资源、高速网络资源及超算应用资源，会上，国家超算广州中心联合广东联通、中移互联网、鹏城实验室、香港科大霍英东研究院、澳门中华创新科技发展促进会等14家单位正式启动粤港澳超算应用互联网建设，共同打造国家级科技创新平台，支撑国家算力网络建设战略。...PC版：https://www.cnbeta.com.tw/articles/soft/1402435.htm手机版：https://m.cnbeta.com.tw/view/1402435.htm

苹果发布 OpenELM 大语言模型，基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型，基于开源训练和推理框架的语言模型在WWDC24之前，苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”，名为OpenELM。苹果这次发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的checkpoint和训练日志，以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

日本团队利用超算“富岳”开发大语言模型

日本团队利用超算“富岳”开发大语言模型东京工业大学、理化学研究所、富士通等的团队10日发布消息称，运用超级计算机“富岳”独立开发了日语能力出色的生成式人工智能基础技术“大语言模型”。不仅企业与大学可下载使用，公众也可通过富士通官网试用。此次利用包括富岳在内的国产技术，还独立汇总了用于学习的日语数据。该团队认为，能够消除海外模型被指“使用哪些数据如何开发存在不透明”的担忧。该团队从互联网文本数据库中甄选高质量的日语文本。使用“富岳”推进人工智能学习，用不到1年时间完成开发。据称，特点是能够自然地处理敬语和以日本文化为背景的对话。富岳不使用GPU，团队此次优化了软件，把CPU的计算速度提高至6倍，展示了使用国产超算也能开发生成式人工智能。——

华为盘古NLP模型是华为云推出的一种中文自然语言处理模型，是业界首个千亿参数语言预训练模型 1. 它在预训练阶段学习了40T

华为盘古NLP模型是华为云推出的一种中文自然语言处理模型，是业界首个千亿参数中文语言预训练模型1.它在预训练阶段学习了40TB中文文本数据，是最接近人类中文理解能力的AI大模型1.盘古NLP大模型可用于内容生成、内容理解等方面，并首次使用Encoder-Decoder架构，兼顾NLP大模型的理解能力和生成能力，保证了模型在不同系统中的嵌入灵活性3.总之，华为盘古NLP模型是一种中文自然语言处理模型，它是业界首个千亿参数中文语言预训练模型，可用于内容生成、内容理解等方面，并首次使用Encoder-Decoder架构盘古大模型已经产出工业成果了，HI自动驾驶就是基于盘古模型学习的，问界的语音控制也是，还有个重磅的就是C919的诞生，是中国商飞上海飞机设计研究院联合华为发布了世界首个工业级流体仿真大模型东方•御风也是基于盘古模型打造的华为盘古大模型在工业领域较为出色，大模型的名称是因为，这玩意不是你用个电脑就能跑起来的，就算放到云上让你用，成本和延迟也不允许。所以盘古大模型的性能优化应该没有GPT那么惊艳。至于文心一言，它是百度的半成品，我认为它的进步的速度会非常快，1-2个月后可见分晓，千万不要以固有思维去理解AI，chatgpt刚出来时也表现一般#文章#AI#科技viaJasonh

LLMPruner：大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪，减少模型参数量，降低显存占用，提升训练速度，并且能够

：大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪，减少模型参数量，降低显存占用，提升训练速度，并且能够保留预训练中学习到的知识。大语言模型(LLM,LargeLanguageModel)犹如雨后春笋般，其虽然效果惊艳，但参数量巨大，让普通玩家望而却步。如今的大语言模型大多为多语种大预言模型(MultilingualLargeLanguageModel)，如LLaMA、mT5、Bloom等，其词表规模巨大，占据非常大部分的模型参数，如Bloom具有25万词表。在训练模型时，词表权重将会消耗非常大的显存，降低训练速度，产生OOM的现象。但在许多下游任务中，一般只会用到一两种语言，例如在中文场景中，一般只会用到中英文。我们可以对大语言模型的词表进行裁剪，只留下所需的部分，这样不仅能够充分保留模型的预训练知识，并且能够使用更少的显卡进行下游任务的finetune，提升训练效率。#工具

LaWGPT：基于中文法律知识的大语言模型

LaWGPT：基于中文法律知识的大语言模型该系列模型在通用中文基座模型（如Chinese-LLaMA、ChatGLM等）的基础上扩充法律领域专有词表、大规模中文法律语料预训练，增强了大模型在法律领域的基础语义理解能力。在此基础上，构造法律领域对话问答数据集、中国司法考试数据集进行指令精调，提升了模型对法律内容的理解和执行能力。https://github.com/pengxiao-song/LaWGPT来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人