日本团队利用超算“富岳”开发大语言模型

日本团队利用超算“富岳”开发大语言模型 东京工业大学、理化学研究所、富士通等的团队10日发布消息称,运用超级计算机“富岳”独立开发了日语能力出色的生成式人工智能基础技术“大语言模型”。不仅企业与大学可下载使用,公众也可通过富士通官网试用。此次利用包括富岳在内的国产技术,还独立汇总了用于学习的日语数据。该团队认为,能够消除海外模型被指“使用哪些数据如何开发存在不透明”的担忧。该团队从互联网文本数据库中甄选高质量的日语文本。使用“富岳”推进人工智能学习,用不到1年时间完成开发。据称,特点是能够自然地处理敬语和以日本文化为背景的对话。富岳不使用GPU,团队此次优化了软件,把CPU的计算速度提高至6倍,展示了使用国产超算也能开发生成式人工智能。

相关推荐

封面图片

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型 理化学研究所的超级计算机 Fugaku为了在 Fugaku 上训练大型语言模型,研究人员开发了分布式训练方法,包括将深度学习框架 Megatron-DeepSpeed 移植到 Fugaku,以优化变形金刚在 Fugaku 上的性能。他们加速了 Transformers 的密集矩阵乘法库,并通过结合三种并行化技术优化了 Fugaku 的通信性能,还加速了 Tofu 互联 D 上的集体通信库。Fugaku-LLM 有 130 亿个参数,比日本广泛开发的 70 亿个参数模型更大。Fugaku-LLM 增强了日语能力,在日语 MT-Bench 中平均得分 5.5,是使用日本原始数据训练的开放模型中最高的。特别是人文和社会科学任务的基准性能达到了 9.18 分的惊人高分。Fugaku-LLM 是在 CyberAgent 收集的日语专有数据、英语数据和其他数据的基础上进行训练的。Fugaku-LLM 的源代码可在 GitHub 上获取,模型可在 Hugging Face 上获取。只要用户遵守许可证,Fugaku-LLM 可用于研究和商业目的。未来,随着更多研究人员和工程师参与改进模型及其应用,训练效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联动,以及拥有成千上万人工智能的虚拟社区的社会模拟。研究背景近年来,大型语言模型(LLM)的发展十分活跃,尤其是在美国。其中,由 OpenAI 开发的 ChatGPT(6) 的迅速普及,对研发、经济体系和国家安全产生了深远影响。除美国外,其他国家也在本国投入大量人力和计算资源开发 LLM。日本也需要确保用于人工智能研究的计算资源,以免在这场全球竞赛中落后。人们对日本的旗舰超级计算机系统"Fugaku"寄予厚望,因此有必要改善在"Fugaku"上进行大规模分布式培训的计算环境,以满足这些期望。因此,东京工业大学、东北大学、富士通公司、理化学研究所、名古屋大学、CyberAgent 和 Kotoba Technologies 启动了一项关于开发大型语言模型的联合研究项目。各机构/公司的作用东京工业大学:大型语言模型的总体监督、并行化和通信加速(通过三种并行化组合优化通信性能,加速 Tofu 互联 D 上的集体通信)东北大学收集训练数据和选择模型富士通加速计算和通信(加速 Tofu 互联 D 上的集体通信、优化流水线并行化的性能)以及实施预训练和训练后微调理化学研究所:大规模语言模型的分布式并行化和通信加速(Tofu 互联 D 上的集体通信加速)名古屋大学研究 Fugaku-LLM 在 3D 生成式人工智能中的应用方法CyberAgent:提供训练数据Kotoba Technologies:将深度学习框架移植到 Fugaku未来发展这项研究的成果将通过 GitHub 和 Hugging Face 公开,以便其他研究人员和工程师可以利用这些成果进一步开发大型语言模型。只要用户遵守许可协议,Fugaku-LLM 可用于研究和商业目的。从 2024 年 5 月 10 日起,Fugaku-LLM 还将通过富士通研究门户网站提供给用户。未来,随着越来越多的研究人员和工程师参与到模型及其应用的改进中来,训练的效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联系,以及拥有成千上万人工智能的虚拟社区的社会模拟。本研究得到了 Fugaku 政策支持提案"利用 Fugaku 开发大型语言模型的分布式并行训练"(提案号:hp230254)的支持。 ... PC版: 手机版:

封面图片

报道微软正在自行开发比OpenAI更小更便宜的人工智能模型

报道微软正在自行开发比OpenAI更小更便宜的人工智能模型 这些 SLM 旨在提供与 OpenAI 的 GPT 等大型语言模型(LLM)类似的对话和生成能力,但对硬件的需求大大降低。与外部开发的替代产品相比,这将使微软的人工智能产品和服务具有更低的相关成本和碳足迹。GenAI 团队预计将并入微软的 Azure 云计算部门,将专注于创建更小的语言模型。为了支持 GenAI 团队,微软还从其研究小组调来了几位顶尖开发人员。微软公司副总裁米沙-比连科(Misha Bilenko)将领导该团队的工作。GenAI 团队的目标是创造出与 OpenAI 等公司提供的模型功能相匹配甚至更强的人工智能,同时针对较小的规模进行优化。迄今为止,微软已将 OpenAI 的多项人工智能功能纳入其产品中。例如,必应在Copilot中使用了GPT-4,必应图像创建器在图像生成中使用了Dall-E。最近几周,该公司还推出了Copilot Pro一项针对个人消费者的订阅服务,为他们提供更先进的人工智能功能。该报告是在 OpenAI 最近推出 GPT 商店之后发布的,用户可以在该商店创建、分享和销售基于 OpenAI 语言模型的定制人工智能模型。同样,微软也宣布了自己的计划,即为Copilot提供针对特定需求和主题定制的人工智能聊天机器人。然而,依赖外部开发的人工智能会产生一些费用,而且缺乏对技术本身的控制。微软致力于开发更小巧、更经济实惠的人工智能技术,这有可能为公司提供自己的解决方案开辟新的途径,减少对第三方供应商的依赖。据说美国司法部(DOJ)和联邦贸易委员会(FTC)希望调查 OpenAI 与微软的关系,以防您错过。上周,我们曾报道,这两个机构都急于调查这笔交易,特别是微软的参与及其对人工智能行业竞争的影响。 ... PC版: 手机版:

封面图片

Line日本总部本周宣布开源自家开发的日语大型语言模型(LLM)。

Line日本总部本周宣布开源自家开发的日语大型语言模型(LLM)。 ,可用于研究和商业用途,包含 和 个参数两个版本,均可在 HuggingFace Hub 上获取。 ,Line 一直专注于大型语言模型 HyperCLOVA,在 2021 年 5 月,Line 首次公开了基于 2040 亿个参数训练的韩文版 LLM HyperCLOVA,然后在 11 月公布了拥有 850 亿个参数的日语专用版本。 此次公开的模型与 HyperCLOVA 是不同部门并行开发的。此次开源的模型团队指出,此模型是基于 Line 自家的日语大型 Web 文本进行训练的,使用了 650GB 数据集进行训练。 研究团队还提供了本次公开的两个模型与 Rinna-3.6B 和 OpenCALM-7B 模型的准确度和困惑度(perplexity score,PPL)比较数据。

封面图片

Stability AI 发布日语 StableLM 模型

Stability AI 发布日语 StableLM 模型 Stability AI 今天发布了日语 StableLM Alpha,将其语言模型产品扩展至国际市场,这是面向日语使用者的性能最佳的公开语言模型。 新的70亿参数通用语言模型旨在为日本用户提供增强的人工智能文本生成能力。Stability AI 表示,在该公司进行的评估中,日语 StableLM 的表现优于其他四种基准日语模型。 新模型发布了两个版本: 和。 基础模型设计用于使用大规模日语和英语训练数据进行一般文本生成。指令模型使用监督微调技术进行额外调整,以遵循用户提示和说明。 此次发布为日本人工智能开发人员和研究人员提供了适合其语言的新生成模型。这也标志着 Stability AI 首次扩展到 Stable Diffusion 等英语语言模型之外。此举标志着随着全球生成式人工智能应用的增加,未来可能会进入其他国际市场。

封面图片

不想再惹大祸:谷歌整合旗下AI团队 安全团队更接近研发

不想再惹大祸:谷歌整合旗下AI团队 安全团队更接近研发 谷歌最近在一篇博客中宣布,为进一步加强安全人工智能的开发,公司将把专门负责此项任务的“Responsible AI”团队从Research部门调整到DeepMind部门。此举是为了让该团队更紧密地与人工智能模型的构建和扩展工作对接。这一举措正值全球对人工智能安全性的担忧日益加剧之时,人们对监管人工智能技术的需求也越来越强烈。DeepMind团队协助开发了谷歌最先进的人工智能模型Gemini,该模型能够处理视频、音频和文本等多种信息形式,于去年年底投入使用。虽然Gemini的推出对Alphabet的股价产生了积极影响,但该模型在一些历史图像生成上的描述错误也引发了批评,导致谷歌暂停了Gemini的图像生成功能。一年前,谷歌合并了其研究部门Google Brain和DeepMind,专注于人工智能开发,以期赶超微软等竞争对手。微软是ChatGPT和Sora的开发商OpenAI的合作伙伴。此外,上个月谷歌还任命DeepMind的联合创始人穆斯塔法·苏莱曼(Mustafa Suleyman)为新成立的消费级人工智能部门的负责人。尽管谷歌正在不断增加对人工智能和自动化的投资,但在整合人工智能团队之前,公司已经实施了一系列裁员和成本削减措施。谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)去年表示,公司计划在2024年发布一系列人工智能模型。 ... PC版: 手机版:

封面图片

【书名】大模型项目实战:多领域智能应用开发

【书名】大模型项目实战:多领域智能应用开发 【作者】高强文 【格式】#epub #mobi #azw3 #pdf 【分类】#科技 #人工智能 【简介】本书系统讲解大语言模型的实战应用过程。本书涵盖基础知识、常见操作和应用开发3个方面,帮助大语言模型的使用者、应用开发者循序渐进地掌握大模型的原理、操作以及多个场景下的应用开发技能。 下载 频道 群组 商务

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人