英伟达开源Nemotron-4 340B 可用合成数据训出特定开源通用模型

英伟达开源Nemotron-4340B可用合成数据训出特定开源通用模型英伟达发布全新开源模型Nemotron-4340B，有可能彻底改变训练LLM的方式——或许以后各行各业都不再需要昂贵的真实世界数据集了。根据英伟达官方发文，Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward，并构建了一个高质量合成数据生成的完整流程。模型支持4K上下文窗口、50多种自然语言和40多种编程语言。训练数据方面，英伟达采用了高达9万亿个token。其中，8万亿用于预训练，1万亿用于继续训练以提高质量。Nemotron-4340B指令模型可以帮助开发者生成合成训练数据。这些多样化的合成数据，模仿了真实世界的数据特征，因而数据质量明显提升，从而提升了各领域定制LLM的性能和稳定性。而且，为了进一步提高AI生成数据的质量，开发者还可以用Nemotron-4340B奖励模型，来筛选高质量的响应。此外，为了提高模型质量，开发者可以使用NeMoAligner和由Nemotron-4340B奖励模型标注的数据集来对齐模型。根据大模型竞技场LMSYS的消息，Nemotron-4340B已直接超越了Mixtral8x22B、Claudesonnet、Llama370B、Qwen2。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

在Telegram中查看

相关推荐

英伟达开源 3400 亿参数模型 Nemotron-4 340B

英伟达开源3400亿参数模型Nemotron-4340B当地时间6月14日，英伟达开源Nemotron-4340B（3400亿参数）系列模型。据英伟达介绍，开发人员可使用该系列模型生成合成数据，用于训练大型语言模型(LLM)，用于医疗保健、金融、制造、零售和其他行业的商业应用。Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward。英伟达使用了9万亿个token（文本单位）进行训练。Nemotron-4340B-Base在常识推理任务，如ARC-c、MMLU和BBH基准测试中，可以和Llama-370B、Mixtral8x22B和Qwen-272B模型媲美。

近日，英伟达开源Nemotron-4340B（3400亿参数）系列模型。开发人员可使用该系列模型生成合成数据，用于训练大型语言模

近日，英伟达开源Nemotron-4340B（3400亿参数）系列模型。开发人员可使用该系列模型生成合成数据，用于训练大型语言模型(LLM)，用于医疗保健、金融、制造、零售和其他行业的商业应用。Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward。英伟达使用了9万亿个token（文本单位）进行训练。Nemotron-4340B-Base在常识推理任务，如ARC-c、MMLU和BBH基准测试中，可以和Llama-370B、Mixtral8x22B和Qwen-272B模型媲美。（英伟达网站，每经网）

【英伟达开源Nemotron-4340B系列模型，用于训练LLM】近日，英伟达开源Nemotron-4340B（3400亿参数）

【英伟达开源Nemotron-4340B系列模型，用于训练LLM】近日，英伟达开源Nemotron-4340B（3400亿参数）系列模型。开发人员可使用该系列模型生成合成数据，用于训练大型语言模型(LLM)，用于医疗保健、金融、制造、零售和其他行业的商业应用。Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward。英伟达使用了9万亿个token（文本单位）进行训练。Nemotron-4340B-Base在常识推理任务，如ARC-c、MMLU和BBH基准测试中，可以和Llama-370B、Mixtral8x22B和Qwen-272B模型媲美。

英伟达的通用大模型 Nemotron，开源了最新的 3400 亿参数版本。

英伟达的通用大模型Nemotron，开源了最新的3400亿参数版本。本周五，英伟达宣布推出Nemotron-4340B。它包含一系列开放模型，开发人员可以使用这些模型生成合成数据，用于训练大语言模型（LLM），可用于医疗健康、金融、制造、零售等所有行业的商业应用。高质量的训练数据在自定义LLM的响应性能、准确性和质量中起着至关重要的作用——但强大的数据集经常是昂贵且难以访问的。通过独特的开放模型许可，Nemotron-4340B为开发人员提供了一种免费、可扩展的方式来生成合成数据，从而帮助人们构建强大的LLM。Nemotron-4340B系列包括基础、Instruct和Reward模型，它们形成了一个pipeline，用于生成训练和改进LLM的合成数据。这些模型经过优化，可与NVIDIANeMo配合使用，后者是一个用于端到端模型训练的开源框架，包括数据管理、定制和评估。它们还针对开源NVIDIATensorRT-LLM库的推理进行了优化。英伟达表示，Nemotron-4340B现已可从HuggingFace下载。开发人员很快就能在ai.nvidia.com上访问这些模型，它们将被打包为NVIDIANIM微服务，并带有可在任何地方部署的标准应用程序编程接口。大语言模型可以帮助开发人员在无法访问大型、多样化标记数据集的情况下生成合成训练数据。Nemotron-4340BInstruct模型创建了多样化的合成数据，模仿了现实世界数据的特征，有助于提高数据质量，从而提高自定义LLM在各个领域的性能和鲁棒性。来源：机器之心

Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia

HuggingFace开源“世界最大”AI训练合成数据集CosmopediaHuggingFace近日开源了一款名为“Cosmopedia”的 AI 训练数据集，号称是目前世界上最大的合成数据集。该数据集内容均由Mixtral7b模型汇总生成，其中包含大量教科书、博客文章、故事小说、WikiHow教程，共计250亿个Token。HuggingFace表示，这次开源的数据集为0.1版本，未来团队还将持续更新该数据集，推进业界 AI 训练发展。项目地址：消息来源：线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

微软、OpenAI用上“数据永动机” 合成数据是蜜糖还是砒霜？

微软、OpenAI用上“数据永动机”合成数据是蜜糖还是砒霜？已有的（通用）数据资源似乎接近效能极限，开发人员认为，网络上那些通用数据已不足以推动AI模型的性能发展。Gomez便指出，网络极为嘈杂混乱，“它并不能为你提供你真正想要的数据，网络无法满足我们的一切需求。”之前，ChatGPT、Bard等聊天机器人的训练数据多来自于互联网，例如电子书、新闻文章、博客、Twitter与Reddit的推文帖子、Youtube视频、Flickr图片等。但随着AIGC技术愈发复杂，高质量数据的获取难度也越来越大。开发AI模型的科技公司们，也因不当使用数据而遭受多方抨击。今年5月的一场活动上，OpenAI首席执行官SamAltman曾被问及，是否担心监管部门调查ChatGPT可能侵犯用户隐私的事。Altman对此不置可否，并表示自己“非常有信心，很快所有数据都将是合成数据”。▌人类真实数据售价高昂为了大幅提高AI模型的性能，提升它们在科学、医学、商业等领域的水平，AI模型需要的是“独特且复杂”的数据集。而这类数据或是需要来自科学家、医生、作家、演员、工程师等“内行人”，或是需要从药企、银行、零售商等大型企业获取专业数据。这也就带来了让AI公司们转向合成数据的另一层原因——数据太贵了。且不说那些技术含量极高的制药、科学数据，光是之前Reddit和Twitter给出的数据采集要价，都被Gomez“嫌弃”价格太高。其中，Reddit本月起开始对数据接口使用收费。根据第三方软件Apollo的开发者ChristianSelig透露，Reddit收费标准为0.24美元/1000次API响应——对于Apollo来说，这大约相当于200万美元/月开销。而根据Twitter今年3月发布的API政策，企业需要为抓取推文的API支付每月4万美元至20万美元不等的费用，对应可以获得5000万至2亿条推文。而测算数据显示，最低一个档次的套餐只约等于整体推文的0.3%。在这种情况下，合成数据自然成了一个实惠方案，不仅可以避开这些数据的高昂售价，还能生成一些更复杂的数据来训练AI。▌如何用合成数据训练？具体如何用合成数据训练AI大模型？Gomez举了一个例子：在训练一个高级数学模型时，Cohere可能会使用两个AI模型进行对话，其中一个扮演数学老师，另一个则充当学生。之后这两个模型就会就三角函数等数学问题对话，“其实一切都是模型‘想象’出来的”。如果在这个过程中，模型说错了什么，人类就会在查看这段对话时作出纠正。而微软研究院最近的两项研究，也表明合成数据可以用来训练AI模型，这些模型一般比OpenAI的GPT-4、Google的PaLM-2更小更简单。在其中一篇论文中，GPT-4生成了一个名为“TinyStories”的短篇故事合成数据集，里面使用的单词全部非常简单，一个四岁儿童都能理解。这一数据集被用来训练一个简单的大语言模型，后者能生成流畅且语法正确的故事。另一篇论文中，AI可以通过合成的Python代码进行训练，并在之后的编码任务中给出相对较好的表现。▌蜜糖还是砒霜？想要合成数据的客户有了，供应商自然也如雨后春笋般涌现，例如ScaleAI、Gretel.ai等初创公司。Gretel.ai由来自美国国安局和中情局的前情报分析师成立，其已与Google、汇丰银行、RiotGames、Illumina等公司合作，用合成数据来扩充现有数据，帮助训练人工智能模型。Gretel.ai首席执行官AliGolshan表示，合成数据的关键在于，它既能保护数据集中所有个人的隐私，又能保持数据的统计完整性。同时，合成数据还可以消除现有数据中的偏差和不平衡。“举例来说，对冲基金可以研究黑天鹅事件，我们可以创建一百种变体，看看模型能否破解；而对于银行来说，欺诈事件通常不到总数据的百分之一，Gretel的软件可以生成成千上万的欺诈案例，并以此训练AI模型。”不过，也有人不看好合成数据。反对派认为，并不是所有合成数据都经过精心调试，并能反映或改进真实世界。来自牛津、剑桥、帝国理工等机构研究人员发现，合成数据的负面影响甚至堪比“毒药”。如果在训练时大量使用AI内容，会引发模型崩溃（modelcollapse），造成不可逆的缺陷。新一代模型的训练数据会被上一代模型的生成数据所污染，从而对现实世界的感知产生错误理解。随着时间推移，模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下，这个情况也无法避免——研究人员也将此形容为“AI大模型患上‘痴呆症’”。即便是合成数据从业人员Golshan也坦承，在劣质合成数据上进行训练可能会阻碍进步。“网上越来越多的内容都是由AI生成的。随着时间推移，这确实会导致退化，因为这些大模型产生的知识都是重复的，没有任何新的见解。...PC版：https://www.cnbeta.com.tw/articles/soft/1372401.htm手机版：https://m.cnbeta.com.tw/view/1372401.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人