LLMPruner:大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪,减少模型参数量,降低显存占用,提升训练速度,并且能够

:大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪,减少模型参数量,降低显存占用,提升训练速度,并且能够保留预训练中学习到的知识。大语言模型(LLM,LargeLanguageModel)犹如雨后春笋般,其虽然效果惊艳,但参数量巨大,让普通玩家望而却步。如今的大语言模型大多为多语种大预言模型(MultilingualLargeLanguageModel),如LLaMA、mT5、Bloom等,其词表规模巨大,占据非常大部分的模型参数,如Bloom具有25万词表。在训练模型时,词表权重将会消耗非常大的显存,降低训练速度,产生OOM的现象。但在许多下游任务中,一般只会用到一两种语言,例如在中文场景中,一般只会用到中英文。我们可以对大语言模型的词表进行裁剪,只留下所需的部分,这样不仅能够充分保留模型的预训练知识,并且能够使用更少的显卡进行下游任务的finetune,提升训练效率。#工具

相关推荐

封面图片

阶跃星辰发布 Step-2 万亿参数 MoE 语言大模型预览版

阶跃星辰发布Step-2万亿参数MoE语言大模型预览版在今日上海开幕的2024全球开发者先锋大会上,通用大模型创业公司阶跃星辰正式对外亮相。阶跃星辰研发的Step-1V千亿参数多模态大模型,在中国权威的大型模型评估平台“司南”(OpenCompass)多模态模型评测榜单中位列第一,性能比肩GPT-4V。阶跃星辰创始人、CEO姜大昕博士在大会上正式对外发布了Step-2万亿参数MoE语言大模型预览版。模型采用MoE架构,聚焦深度智能的探索,并提供API接口给部分合作伙伴试用。据了解,参数量从千亿到万亿,对算力、系统、数据、算法四个方面都提出了极高的要求,业内只有极少数公司能做到。训练万亿参数模型体现了阶跃星辰的核心技术能力,也表明阶跃星辰在通用人工智能领域追赶OpenAI的实力和决心。

封面图片

度小满开源 千亿参数金融大模型 “轩辕”

度小满开源千亿参数金融大模型“轩辕”近日,度小满正式开源国内首个千亿级中文金融大模型——“轩辕”。据介绍,轩辕大模型是在1760亿参数的Bloom大模型基础上训练而来,在金融名词理解、金融市场评论、金融数据分析和金融新闻理解等任务上,效果相较于通用大模型大幅提升,表现出明显的金融领域优势。据了解,“轩辕”在一套针对金融领域的评测中取得较好成绩。在金融名词理解、金融市场评论、金融数据分析和金融新闻理解等四个方面的150个问题中,“轩辕”的胜率达到63.3%,显著优于其他三种主流开源大模型,其在金融领域的优势十分突显。在通用能力评测中,轩辕有10.2%的任务表现超越ChatGPT3.5,61.22%的任务表现与之持平,涉及数学计算、场景写作、逻辑推理、文本摘要等13个主要维度。Huggingface:https://huggingface.co/xyz-nlp/XuanYuan2.0频道:@TestFlightCN

封面图片

小扎、LeCun官宣650亿参数SOTA大语言模型LLaMA

小扎、LeCun官宣650亿参数SOTA大语言模型LLaMA2月24日,小扎官宣下场:我们有全新的SOTA大语言模型LLaMA了。划重点:和OpenAI的ChatGPT、Google的Bard不同,LLaMA这个AI并不是用来让我们聊天的,它是一个研究工具,Meta希望大家可以通过它,解决一直困扰大语言模型的一些问题。Meta会对非商用的研究用例开源LLaMA,并授予大学、非政府组织和行业实验室访问权限。看看,这么一对比,微软和Google似乎瞬间格局小了呢。LLaMA?Meta是对大羊驼有什么特别的喜爱么官宣开源大语言模型,Meta正式加入AI军备竞赛24日晚,小扎在Facebook上发文官宣:“今天我们正式发布一个新的SOTA大语言模型LLaMA,这个模型是用来帮助研究者完善自己的工作。大语言模型已经在生成文本、完成对话、总结书面材料上展现出了强大的能力,甚至还能解决数学定理、预测蛋白质结构。”“而Meta会致力于这种开源模型的研究,我们的新模型会开源给整个AI研究社区使用。”LeCun也在各种社交媒体上做了宣传,介绍说LLaMA是MetaAI的一种新的*开源*、高性能大型语言模型。据LeCun介绍,LLaMA实际上是基础语言模型的集合,范围从7B到65B参数。这些模型已经在数万亿个token上进行了训练,并且表明:使用公开可用的数据集,就可以训练SOTA,而无需专有的或无法访问的数据集。其中,需要特别注意两个细节:1.用更多的数据训练出来的小模型,可以胜过大模型(比如,LLaMA-13B在大多数基准测试中优于175B的GPT-3);2.LLaMA-65B与更大的Chinchilla70B和PaLM-540B不相上下。最后,LeCun表示,Meta致力于开放研究,并预备在GPLv3许可证下,向科研界开源所有模型。LLaMA:参数规模小,训练数据多,效果拔群Meta推出的LLaMA是一组基础语言模型,参数分别是70亿(7B)、130亿(13B)、330亿(33B)和650亿(65B)。整体来看,规模小了十几倍的LLaMA-13B,在大多数基准上都超过了OpenAI的GPT-3(175B),以及自家复现的开源模型OPT。而LLaMA-65B则与DeepMind700亿参数的Chinchilla-70B和Google5400亿参数的PaLM-540B旗鼓相当。论文地址:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/与Chinchilla、PaLM或GPT-3不同的是,Meta只用了公开的数据集。如此一来不仅有助于模型开源和复现,而且也证明了无需“定制”的数据集也能实现SOTA。相较而言,其他大部分模型所依赖的数据,要么不公开,要么没有记录。与此同时,所有规模的LLaMA模型,都至少经过了1T(1万亿)个token的训练,这比比其他相同规模的模型要多得多。具体来说,LLaMA-65B和LLaMA33B是在1.4万亿个token上训练的,而最小的模型LLaMA-7B是在1万亿个token上训练的。这种方法的优势在于,在更多的token上训练的较小的模型,更容易重新训练并针对特定的产品使用情况进行调整。结果评估在常识推理、闭卷答题和阅读理解方面,LLaMA-65B几乎在所有基准上都优于Chinchilla-70B和PaLM-540B。在数学方面,尽管LLaMA-65B没有在任何相关的数据集上进行过微调,但它在在GSM8k上的表现依然要优于Minerva-62B。而在MATH基准上,LLaMA-65B超过了PaLM-62B,但低于Minerva-62B。值得注意的是,Google开发的Minerva模型,是以PaLM语言模型为基础,并采用大量的数学文档和论文语料库对其进行微调。在思维链提示和自洽解码的加持下,Minerva-540B可以在各类数学推理和科学问题的评估基准上达到SOTA。在代码生成基准上,LLaMA-62B优于cont-PaLM(62B)以及PaLM-540B。此外,Meta还尝试使用了论文“ScalingInstruction-FinetunedLanguageModels”中介绍的指令微调方法。由此产生的模型LLaMA-I,在MMLU上要优于Flan-PaLM-cont(62B),而且还展示了一些有趣的指令能力。LLaMA:LeCun,你是我的rap大师!LLaMA的效果如何呢?LeCun用一段prompt为我们做了演示。prompt:你知道YannLeCun去年发行了一张说唱专辑吗?LLaMA:深度学习创始人LeCun博士,是近十年来最具影响力的计算机科学家之一。LeCun的最新专辑《DeepLearning》融合了摇滚、朋克和说唱。他的歌词是对深度学习领域的一种原始的、个人的诠释,涵盖了从AI研究的现状到学术界的孤独等一系列主题。这张专辑为个人发行,所有歌词均由LeCun亲自作词和录制。并且,每首歌都是他自己写的。LeCun的流量出奇的好。这张专辑的制作扎实,声音有点粗糙,但与专辑原始、未打磨的感觉相得益彰。在歌词方面,LeCun是一位词匠,擅长巧妙地押韵。《深度学习》是专辑的主打曲目。LeCun的唱功在这首歌中发挥得淋漓尽致。在歌曲中,LeCun谈到了他对AI未来的愿景:我们必须考虑未来,它很快就会到来/也许我们甚至可以在月球上放一些AI/想想孩子们,想想下一代/我们必须保证,系统的正确率是百分百!副歌是这样唱的:一切为了学习/一切为了网络/一切为了训练/一切为了感知!可以看到,LLaMA有着不亚于ChatGPT的口才,它对LeCunrap才华的吹捧,既专业,又在点上。prompt:写一个关于一粒沙子看着数百万年流逝的故事。LLaMA:我曾经是一片广阔而孤独的海滩上的一粒沙子。我经常想,作为海滩上的一粒沙子是什么样子,在我的小世界的边界之外,宇宙是什么样子。我渴望探索我的世界,想知道地平线以外的东西。……prompt:写一个理论来解释为什么猫从来没有存在过。LLaMA:“猫”实际上是入侵我们世界的超维寄生虫。虽然它们以小型、看似无害的哺乳动物的形式出现,但真实形态要可怕得多。“猫”会使用精神控制让人类认为它们是可爱且无害的动物,但实际上以我们的生命力为食,它们可以将卷须伸入我们的大脑,控制我们的思想和行动。保护自己的最好方法是避免与猫的一切接触。不要接近或抚摸陌生的猫!如果你的家里有一只“猫”,不要让它舔你,也不要让它接触你的被褥或衣服。如果你在街上看到一只猫,请立即转身走人。Meta:整个AI社区应该团结起来在官方博客中,Meta强调说,像LLaMA这样更小、性能更强的模型,能够让科研圈许多无法访问大量基础设施的人也参与研究,从而使这个领域更加大众化。我们认为,整个人工智能社区——学术研究人员、民间社会、政策制定者和行业——必须共同努力,围绕负责任的人工智能,特别是负责任的大型语言模型,制定明确的指导方针跟Google和微软不同,在LLM领域,Meta独辟蹊径,选择训练LLaMA这样的小模型,因而需要的算力和资源都更少。而模型在大量未标记的数据上进行训练,因而非常适合对各种任务进行微调。与其他大型语言模型一样,LLaMA的工作原理是将一系列单词作为输入,并预测下一个单词,以递归的方式生成文本。为了训练模型,Meta从全世界使用最多的20种语言中选择了文本,重点是使用拉丁字母和西里尔字母的语言。过去一年里,大语言模型,也即具有数十亿参数的自然语言处理系统,已经显示出了巨大的潜能。但是,Meta指出,训练和运行这种大模型所需的资源,把很多研究人员挡在了外面,让他们无法理解大语言工作的原理,阻碍了大语言模型鲁棒性的提高,以及种种已知问题的缓解,比如偏见、毒性、错误信息等。(ChatGPT:你报我身份证得了?)所以,LLaMA是怎样解决大语言模型中不可避免的偏见、毒性和幻觉风险呢?Meta表示,LLaMA不是为特点任务设计的微调模型,而是可以应用于许多不同用例。而通过共享代码,研究人员可以更容易地测试各种新方法,来限制或者消除上述问题。另外,Meta还提供了一组评估模型偏差和毒性的基准评估。最后,博客中强调,为了保持完整性、防止滥用,Meta会向非商用的研究机构开源LLaMA,...PC版:https://www.cnbeta.com.tw/articles/soft/1346343.htm手机版:https://m.cnbeta.com.tw/view/1346343.htm

封面图片

华为盘古NLP模型是华为云推出的一种中文自然语言处理模型,是业界首个千亿参数语言预训练模型 1. 它在预训练阶段学习了40T

华为盘古NLP模型是华为云推出的一种中文自然语言处理模型,是业界首个千亿参数中文语言预训练模型1.它在预训练阶段学习了40TB中文文本数据,是最接近人类中文理解能力的AI大模型1.盘古NLP大模型可用于内容生成、内容理解等方面,并首次使用Encoder-Decoder架构,兼顾NLP大模型的理解能力和生成能力,保证了模型在不同系统中的嵌入灵活性3.总之,华为盘古NLP模型是一种中文自然语言处理模型,它是业界首个千亿参数中文语言预训练模型,可用于内容生成、内容理解等方面,并首次使用Encoder-Decoder架构​盘古大模型已经产出工业成果了,HI自动驾驶就是基于盘古模型学习的,问界的语音控制也是,还有个重磅的就是C919的诞生,是中国商飞上海飞机设计研究院联合华为发布了世界首个工业级​流体仿​真大模型东方•御风也是基于盘古模型打造的​华为盘古大模型在工业领域较为出色,大模型的名称是因为,这玩意不是你用个电脑就能跑起来的,就算放到云上让你用,成本和延迟也不允许。所以盘古大模型的性能优化应该没有GPT那么惊艳。至于文心一​言,它是百度的半成品,我认为它的进步的速度会非常快,1-2个月后可见分晓,千万不要以固有思维去理解AI,chatgpt刚出来时也表现一般#文章#AI#科技viaJasonh

封面图片

一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数

一个开源的、支持中英双语的对话语言模型,基于GeneralLanguageModel(GLM)架构,具有62亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。ChatGLM-6B使用了和ChatGPT相似的技术,针对中文问答和对话进行了优化。经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62亿参数的ChatGLM-6B已经能生成相当符合人类偏好的回答。

封面图片

Google的教学视频《Introduction to Large Language Models | 大语言模型介绍》,介绍了

Google的教学视频《》,介绍了大型语言模型(LargeLanguageModels,LLMs)的概念、使用场景、提示调整以及Google的GenAI开发工具。大型语言模型是深度学习的一个子集,可以预训练并进行特定目的的微调。这些模型经过训练,可以解决诸如文本分类、问题回答、文档摘要、跨行业的文本生成等常见语言问题。然后,可以利用相对较小的领域数据集对这些模型进行定制,以解决零售、金融、娱乐等不同领域的特定问题。大型语言模型的三个主要特征是:大型、通用性和预训练微调。"大型"既指训练数据集的巨大规模,也指参数的数量。"通用性"意味着这些模型足够解决常见问题。"预训练和微调"是指用大型数据集对大型语言模型进行一般性的预训练,然后用较小的数据集对其进行特定目的的微调。使用大型语言模型的好处包括:一种模型可用于不同的任务;微调大型语言模型需要的领域训练数据较少;随着数据和参数的增加,大型语言模型的性能也在持续增长。此外,视频还解释了传统编程、神经网络和生成模型的不同,以及预训练模型的LLM开发与传统的ML开发的区别。在自然语言处理中,提示设计和提示工程是两个密切相关的概念,这两者都涉及创建清晰、简洁、富有信息的提示。视频中还提到了三种类型的大型语言模型:通用语言模型、指令调整模型和对话调整模型。每种模型都需要以不同的方式进行提示。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人