国产中文大语言模型“天河天元”发布 由天河超算训练

国产中文大语言模型“天河天元”发布由天河超算训练国家超算天津中心在大会上发布了“天河E级智能计算开放创新平台”和“天河天元大模型”。据介绍,中文大语言模型的数据集非常稀缺。国家超算天津中心搜集整理了网页数据、各种开源训练数据、中文小说数据、古文数据、百科数据、新闻数据,以及专业领域的中医、医药、问诊、法律等多种数据集。训练数据集总token数达到350B,最终训练打造出了自己的中文语言大模型——天河天元大模型。据悉,“天河E级智能计算开放创新平台”将带来突破百亿亿次的跨模态的超级计算算力,支撑传统的科学工程计算,并服务智能混合计算,打造全方位的算力赋能创新和数字经济高质量发展载体。...PC版:https://www.cnbeta.com.tw/articles/soft/1360799.htm手机版:https://m.cnbeta.com.tw/view/1360799.htm

相关推荐

封面图片

新一代国产超算“天河星逸”发布

新一代国产超算“天河星逸”发布发布现场。主办方供图据介绍,“天河星逸”支持高性能计算、AI大模型训练以及大数据分析各类应用模式,将进一步提升广州超算中心的多领域服务能力,切实满足各行业领域的超算应用需求,为前沿科技突破、战略工程建设、产业升级转型提供强劲的高端算力支撑。“天河二号”于2013年研制成功,并连续6次夺得TOP500世界超算六连冠,是我国超算系统研制进入世界领先行列的重要标志。“天河二号”研制工程总设计师、中国工程院院士廖湘科指出,国产超算应用一直是我国超算发展面临的一大挑战。国家超算广州中心开发了一系列面向领域的超算应用平台,自主研发了“星光”国产多模式超算融合应用支撑平台,构建起国产超算系统与各领域超算应用的桥梁,支持各行各业取得了显著的应用实效,有力拓展了国产超算应用生态。为进一步推动算力并网,聚合超级计算机为代表的算力资源、高速网络资源及超算应用资源,会上,国家超算广州中心联合广东联通、中移互联网、鹏城实验室、香港科大霍英东研究院、澳门中华创新科技发展促进会等14家单位正式启动粤港澳超算应用互联网建设,共同打造国家级科技创新平台,支撑国家算力网络建设战略。...PC版:https://www.cnbeta.com.tw/articles/soft/1402435.htm手机版:https://m.cnbeta.com.tw/view/1402435.htm

封面图片

苹果发布 OpenELM 大语言模型,基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型,基于开源训练和推理框架的语言模型在WWDC24之前,苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为OpenELM。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的checkpoint和训练日志,以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

封面图片

日本团队利用超算“富岳”开发大语言模型

日本团队利用超算“富岳”开发大语言模型东京工业大学、理化学研究所、富士通等的团队10日发布消息称,运用超级计算机“富岳”独立开发了日语能力出色的生成式人工智能基础技术“大语言模型”。不仅企业与大学可下载使用,公众也可通过富士通官网试用。此次利用包括富岳在内的国产技术,还独立汇总了用于学习的日语数据。该团队认为,能够消除海外模型被指“使用哪些数据如何开发存在不透明”的担忧。该团队从互联网文本数据库中甄选高质量的日语文本。使用“富岳”推进人工智能学习,用不到1年时间完成开发。据称,特点是能够自然地处理敬语和以日本文化为背景的对话。富岳不使用GPU,团队此次优化了软件,把CPU的计算速度提高至6倍,展示了使用国产超算也能开发生成式人工智能。——

封面图片

华为盘古NLP模型是华为云推出的一种中文自然语言处理模型,是业界首个千亿参数语言预训练模型 1. 它在预训练阶段学习了40T

华为盘古NLP模型是华为云推出的一种中文自然语言处理模型,是业界首个千亿参数中文语言预训练模型1.它在预训练阶段学习了40TB中文文本数据,是最接近人类中文理解能力的AI大模型1.盘古NLP大模型可用于内容生成、内容理解等方面,并首次使用Encoder-Decoder架构,兼顾NLP大模型的理解能力和生成能力,保证了模型在不同系统中的嵌入灵活性3.总之,华为盘古NLP模型是一种中文自然语言处理模型,它是业界首个千亿参数中文语言预训练模型,可用于内容生成、内容理解等方面,并首次使用Encoder-Decoder架构​盘古大模型已经产出工业成果了,HI自动驾驶就是基于盘古模型学习的,问界的语音控制也是,还有个重磅的就是C919的诞生,是中国商飞上海飞机设计研究院联合华为发布了世界首个工业级​流体仿​真大模型东方•御风也是基于盘古模型打造的​华为盘古大模型在工业领域较为出色,大模型的名称是因为,这玩意不是你用个电脑就能跑起来的,就算放到云上让你用,成本和延迟也不允许。所以盘古大模型的性能优化应该没有GPT那么惊艳。至于文心一​言,它是百度的半成品,我认为它的进步的速度会非常快,1-2个月后可见分晓,千万不要以固有思维去理解AI,chatgpt刚出来时也表现一般#文章#AI#科技viaJasonh

封面图片

LLMPruner:大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪,减少模型参数量,降低显存占用,提升训练速度,并且能够

:大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪,减少模型参数量,降低显存占用,提升训练速度,并且能够保留预训练中学习到的知识。大语言模型(LLM,LargeLanguageModel)犹如雨后春笋般,其虽然效果惊艳,但参数量巨大,让普通玩家望而却步。如今的大语言模型大多为多语种大预言模型(MultilingualLargeLanguageModel),如LLaMA、mT5、Bloom等,其词表规模巨大,占据非常大部分的模型参数,如Bloom具有25万词表。在训练模型时,词表权重将会消耗非常大的显存,降低训练速度,产生OOM的现象。但在许多下游任务中,一般只会用到一两种语言,例如在中文场景中,一般只会用到中英文。我们可以对大语言模型的词表进行裁剪,只留下所需的部分,这样不仅能够充分保留模型的预训练知识,并且能够使用更少的显卡进行下游任务的finetune,提升训练效率。#工具

封面图片

LaWGPT:基于中文法律知识的大语言模型

LaWGPT:基于中文法律知识的大语言模型该系列模型在通用中文基座模型(如Chinese-LLaMA、ChatGLM等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。https://github.com/pengxiao-song/LaWGPT来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人