英伟达开源 3400 亿参数模型 Nemotron-4 340B

英伟达开源3400亿参数模型Nemotron-4340B当地时间6月14日,英伟达开源Nemotron-4340B(3400亿参数)系列模型。据英伟达介绍,开发人员可使用该系列模型生成合成数据,用于训练大型语言模型(LLM),用于医疗保健、金融、制造、零售和其他行业的商业应用。Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward。英伟达使用了9万亿个token(文本单位)进行训练。Nemotron-4340B-Base在常识推理任务,如ARC-c、MMLU和BBH基准测试中,可以和Llama-370B、Mixtral8x22B和Qwen-272B模型媲美。

相关推荐

封面图片

【英伟达开源Nemotron-4340B系列模型,用于训练LLM】近日,英伟达开源Nemotron-4340B(3400亿参数)

【英伟达开源Nemotron-4340B系列模型,用于训练LLM】近日,英伟达开源Nemotron-4340B(3400亿参数)系列模型。开发人员可使用该系列模型生成合成数据,用于训练大型语言模型(LLM),用于医疗保健、金融、制造、零售和其他行业的商业应用。Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward。英伟达使用了9万亿个token(文本单位)进行训练。Nemotron-4340B-Base在常识推理任务,如ARC-c、MMLU和BBH基准测试中,可以和Llama-370B、Mixtral8x22B和Qwen-272B模型媲美。

封面图片

近日,英伟达开源Nemotron-4340B(3400亿参数)系列模型。开发人员可使用该系列模型生成合成数据,用于训练大型语言模

近日,英伟达开源Nemotron-4340B(3400亿参数)系列模型。开发人员可使用该系列模型生成合成数据,用于训练大型语言模型(LLM),用于医疗保健、金融、制造、零售和其他行业的商业应用。Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward。英伟达使用了9万亿个token(文本单位)进行训练。Nemotron-4340B-Base在常识推理任务,如ARC-c、MMLU和BBH基准测试中,可以和Llama-370B、Mixtral8x22B和Qwen-272B模型媲美。(英伟达网站,每经网)

封面图片

英伟达开源Nemotron-4 340B 可用合成数据训出特定开源通用模型

英伟达开源Nemotron-4340B可用合成数据训出特定开源通用模型英伟达发布全新开源模型Nemotron-4340B,有可能彻底改变训练LLM的方式——或许以后各行各业都不再需要昂贵的真实世界数据集了。根据英伟达官方发文,Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward,并构建了一个高质量合成数据生成的完整流程。模型支持4K上下文窗口、50多种自然语言和40多种编程语言。训练数据方面,英伟达采用了高达9万亿个token。其中,8万亿用于预训练,1万亿用于继续训练以提高质量。Nemotron-4340B指令模型可以帮助开发者生成合成训练数据。这些多样化的合成数据,模仿了真实世界的数据特征,因而数据质量明显提升,从而提升了各领域定制LLM的性能和稳定性。而且,为了进一步提高AI生成数据的质量,开发者还可以用Nemotron-4340B奖励模型,来筛选高质量的响应。此外,为了提高模型质量,开发者可以使用NeMoAligner和由Nemotron-4340B奖励模型标注的数据集来对齐模型。根据大模型竞技场LMSYS的消息,Nemotron-4340B已直接超越了Mixtral8x22B、Claudesonnet、Llama370B、Qwen2。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

英伟达的通用大模型 Nemotron,开源了最新的 3400 亿参数版本。

英伟达的通用大模型Nemotron,开源了最新的3400亿参数版本。本周五,英伟达宣布推出Nemotron-4340B。它包含一系列开放模型,开发人员可以使用这些模型生成合成数据,用于训练大语言模型(LLM),可用于医疗健康、金融、制造、零售等所有行业的商业应用。高质量的训练数据在自定义LLM的响应性能、准确性和质量中起着至关重要的作用——但强大的数据集经常是昂贵且难以访问的。通过独特的开放模型许可,Nemotron-4340B为开发人员提供了一种免费、可扩展的方式来生成合成数据,从而帮助人们构建强大的LLM。Nemotron-4340B系列包括基础、Instruct和Reward模型,它们形成了一个pipeline,用于生成训练和改进LLM的合成数据。这些模型经过优化,可与NVIDIANeMo配合使用,后者是一个用于端到端模型训练的开源框架,包括数据管理、定制和评估。它们还针对开源NVIDIATensorRT-LLM库的推理进行了优化。英伟达表示,Nemotron-4340B现已可从HuggingFace下载。开发人员很快就能在ai.nvidia.com上访问这些模型,它们将被打包为NVIDIANIM微服务,并带有可在任何地方部署的标准应用程序编程接口。大语言模型可以帮助开发人员在无法访问大型、多样化标记数据集的情况下生成合成训练数据。Nemotron-4340BInstruct模型创建了多样化的合成数据,模仿了现实世界数据的特征,有助于提高数据质量,从而提高自定义LLM在各个领域的性能和鲁棒性。来源:机器之心

封面图片

阿里通义千问开源 320 亿参数模型

阿里通义千问开源320亿参数模型4月7日,阿里云通义千问开源320亿参数模型。通义千问此前已开源5亿、18亿、40亿、70亿、140亿和720亿参数6款大语言模型。此次开源的320亿参数模型,将在性能、效率和内存占用之间实现更理想的平衡。例如,相比通义千问14B开源模型,32B在智能体场景下能力更强;相比通义千问72B开源模型,32B的推理成本更低。通义千问团队希望32B开源模型能为企业和开发者提供更高性价比的模型选择。目前,通义千问共开源了7款大语言模型,在海内外开源社区累计下载量突破300万。来源,频道:@kejiqu群组:@kejiquchat

封面图片

通义千问70亿参数模型上线魔搭社区,开源免费可商用

通义千问70亿参数模型上线魔搭社区,开源免费可商用AI模型社区魔搭ModelScope上架两款开源模型和,阿里云确认其为通义千问70亿参数通用模型和对话模型,两款模型均开源、免费、可商用。在多个权威测评中,通义千问7B模型取得了远超国内外同等尺寸模型的效果,成为当下业界最强的中英文7B开源模型。Qwen-7B是支持中、英等多种语言的基座模型,在超过2万亿token数据集上训练,上下文窗口长度达到8k。Qwen-7B-Chat是基于基座模型的中英文对话模型,已实现与人类认知对齐。开源代码支持对Qwen-7B和Qwen-7B-Chat的量化,支持用户在消费级显卡上部署和运行模型。https://modelscope.cn/models/qwen/Qwen-7B/summaryhttps://modelscope.cn/models/qwen/Qwen-7B-Chat/summaryhttps://github.com/QwenLM/Qwen-7B来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人