富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型 理化学研究所的超级计算机 Fugaku为了在 Fugaku 上训练大型语言模型,研究人员开发了分布式训练方法,包括将深度学习框架 Megatron-DeepSpeed 移植到 Fugaku,以优化变形金刚在 Fugaku 上的性能。他们加速了 Transformers 的密集矩阵乘法库,并通过结合三种并行化技术优化了 Fugaku 的通信性能,还加速了 Tofu 互联 D 上的集体通信库。Fugaku-LLM 有 130 亿个参数,比日本广泛开发的 70 亿个参数模型更大。Fugaku-LLM 增强了日语能力,在日语 MT-Bench 中平均得分 5.5,是使用日本原始数据训练的开放模型中最高的。特别是人文和社会科学任务的基准性能达到了 9.18 分的惊人高分。Fugaku-LLM 是在 CyberAgent 收集的日语专有数据、英语数据和其他数据的基础上进行训练的。Fugaku-LLM 的源代码可在 GitHub 上获取,模型可在 Hugging Face 上获取。只要用户遵守许可证,Fugaku-LLM 可用于研究和商业目的。未来,随着更多研究人员和工程师参与改进模型及其应用,训练效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联动,以及拥有成千上万人工智能的虚拟社区的社会模拟。研究背景近年来,大型语言模型(LLM)的发展十分活跃,尤其是在美国。其中,由 OpenAI 开发的 ChatGPT(6) 的迅速普及,对研发、经济体系和国家安全产生了深远影响。除美国外,其他国家也在本国投入大量人力和计算资源开发 LLM。日本也需要确保用于人工智能研究的计算资源,以免在这场全球竞赛中落后。人们对日本的旗舰超级计算机系统"Fugaku"寄予厚望,因此有必要改善在"Fugaku"上进行大规模分布式培训的计算环境,以满足这些期望。因此,东京工业大学、东北大学、富士通公司、理化学研究所、名古屋大学、CyberAgent 和 Kotoba Technologies 启动了一项关于开发大型语言模型的联合研究项目。各机构/公司的作用东京工业大学:大型语言模型的总体监督、并行化和通信加速(通过三种并行化组合优化通信性能,加速 Tofu 互联 D 上的集体通信)东北大学收集训练数据和选择模型富士通加速计算和通信(加速 Tofu 互联 D 上的集体通信、优化流水线并行化的性能)以及实施预训练和训练后微调理化学研究所:大规模语言模型的分布式并行化和通信加速(Tofu 互联 D 上的集体通信加速)名古屋大学研究 Fugaku-LLM 在 3D 生成式人工智能中的应用方法CyberAgent:提供训练数据Kotoba Technologies:将深度学习框架移植到 Fugaku未来发展这项研究的成果将通过 GitHub 和 Hugging Face 公开,以便其他研究人员和工程师可以利用这些成果进一步开发大型语言模型。只要用户遵守许可协议,Fugaku-LLM 可用于研究和商业目的。从 2024 年 5 月 10 日起,Fugaku-LLM 还将通过富士通研究门户网站提供给用户。未来,随着越来越多的研究人员和工程师参与到模型及其应用的改进中来,训练的效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联系,以及拥有成千上万人工智能的虚拟社区的社会模拟。本研究得到了 Fugaku 政策支持提案"利用 Fugaku 开发大型语言模型的分布式并行训练"(提案号:hp230254)的支持。 ... PC版: 手机版:

相关推荐

封面图片

Line日本总部本周宣布开源自家开发的日语大型语言模型(LLM)。

Line日本总部本周宣布开源自家开发的日语大型语言模型(LLM)。 ,可用于研究和商业用途,包含 和 个参数两个版本,均可在 HuggingFace Hub 上获取。 ,Line 一直专注于大型语言模型 HyperCLOVA,在 2021 年 5 月,Line 首次公开了基于 2040 亿个参数训练的韩文版 LLM HyperCLOVA,然后在 11 月公布了拥有 850 亿个参数的日语专用版本。 此次公开的模型与 HyperCLOVA 是不同部门并行开发的。此次开源的模型团队指出,此模型是基于 Line 自家的日语大型 Web 文本进行训练的,使用了 650GB 数据集进行训练。 研究团队还提供了本次公开的两个模型与 Rinna-3.6B 和 OpenCALM-7B 模型的准确度和困惑度(perplexity score,PPL)比较数据。

封面图片

:为大型语言模型(LLM)设计的结构化生成语言,旨在加速和更好地控制与LLM的交互。

:为大型语言模型(LLM)设计的结构化生成语言,旨在加速和更好地控制与LLM的交互。 特点包括:灵活的前端语言,允许轻松编程LLM应用,支持多个连锁生成调用、高级提示技术、控制流、多模式、并行处理和外部交互;具备高性能运行时,使用RadixAttention可以显著加速复杂LLM程序的执行,自动跨多个调用重复使用KV缓存,同时支持连续批处理和张量并行处理。

封面图片

谷歌公布其训练 PaLM 模型的超级计算机细节

谷歌公布其训练 PaLM 模型的超级计算机细节 谷歌的 PaLM 模型是迄今为止其公开披露的最大的语言模型,谷歌通过将其分割到由 4,000 个芯片组成的两台超级计算机上,历时 50 天训练而成。此外,Midjourney 也使用该系统来训练其模型。谷歌称,对于同等规模的系统,采用这些芯片比基于英伟达 A100 芯片的系统快 1.7 倍,省电 1.9 倍。但谷歌没有与英伟达目前的旗舰产品 H100 芯片进行比较,因为 H100 是在谷歌的芯片之后上市的,而且是用更新的技术制造的。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

马斯克证实xAI将自行打造超级计算机训练Grok大语言模型

马斯克证实xAI将自行打造超级计算机训练Grok大语言模型 PANews 7月11日消息,据IT之家报道,马斯克证实其名下人工智能初创企业xAI已结束与甲骨文扩大现有协议、租用英伟达芯片的洽谈。他表示,xAI正打造一台拥有10万块英伟达H100 GPU的超级计算机,预计将在本月晚些时候交付并开始训练。他指出,“这将成为全球范围内功能最强大的训练集群,并且领先优势巨大”,“我们的核心竞争力在于比任何其他的人工智能公司都更快,这是缩小差距的唯一途径”。 在此之前,xAI已经从甲骨文租用了2.4万块的H100芯片(的算力),并用它们训练出了Grok 2。他表示Grok 2 目前正处于最终的打磨阶段,只需要进行些许微调和Bug修复就可以发布,预计最快下个月发布。今年5月有报道称,两家公司接近达成扩大合作关系的协议,xAI将斥资约100亿美元向甲骨文租用云服务器、为期数年。

封面图片

马斯克证实 xAI 将自行打造超级计算机训练 Grok 大语言模型

马斯克证实 xAI 将自行打造超级计算机训练 Grok 大语言模型 马斯克证实其名下人工智能初创企业 xAI 已结束与甲骨文扩大现有协议、租用英伟达芯片的洽谈。他表示,xAI 正打造一台拥有 10 万块英伟达 H100 GPU 的超级计算机,预计将在本月晚些时候交付并开始训练。 他指出,“这将成为全球范围内功能最强大的训练集群,并且领先优势巨大”,“我们的核心竞争力在于比任何其他的人工智能公司都更快,这是缩小差距的唯一途径”。

封面图片

:一个 Python 库,用于创建和处理自然语言处理 (NLP) 数据集,以便训练大型语言模型 (LLM)。该库包含一些可扩展的

:一个 Python 库,用于创建和处理自然语言处理 (NLP) 数据集,以便训练大型语言模型 (LLM)。该库包含一些可扩展的模块,允许 NLP 研究人员从无标注 Web 采集高质量文本,并提供 GPU 加速功能。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人