Line日本总部本周宣布开源自家开发的日语大型语言模型（LLM）。

Line日本总部本周宣布开源自家开发的日语大型语言模型（LLM）。，可用于研究和商业用途，包含和个参数两个版本，均可在 HuggingFace Hub 上获取。，Line 一直专注于大型语言模型 HyperCLOVA，在 2021 年 5 月，Line 首次公开了基于 2040 亿个参数训练的韩文版 LLM HyperCLOVA，然后在 11 月公布了拥有 850 亿个参数的日语专用版本。此次公开的模型与 HyperCLOVA 是不同部门并行开发的。此次开源的模型团队指出，此模型是基于 Line 自家的日语大型 Web 文本进行训练的，使用了 650GB 数据集进行训练。研究团队还提供了本次公开的两个模型与 Rinna-3.6B 和 OpenCALM-7B 模型的准确度和困惑度（perplexity score，PPL）比较数据。

在Telegram中查看

相关推荐

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型理化学研究所的超级计算机 Fugaku为了在 Fugaku 上训练大型语言模型，研究人员开发了分布式训练方法，包括将深度学习框架 Megatron-DeepSpeed 移植到 Fugaku，以优化变形金刚在 Fugaku 上的性能。他们加速了 Transformers 的密集矩阵乘法库，并通过结合三种并行化技术优化了 Fugaku 的通信性能，还加速了 Tofu 互联 D 上的集体通信库。Fugaku-LLM 有 130 亿个参数，比日本广泛开发的 70 亿个参数模型更大。Fugaku-LLM 增强了日语能力，在日语 MT-Bench 中平均得分 5.5，是使用日本原始数据训练的开放模型中最高的。特别是人文和社会科学任务的基准性能达到了 9.18 分的惊人高分。Fugaku-LLM 是在 CyberAgent 收集的日语专有数据、英语数据和其他数据的基础上进行训练的。Fugaku-LLM 的源代码可在 GitHub 上获取，模型可在 Hugging Face 上获取。只要用户遵守许可证，Fugaku-LLM 可用于研究和商业目的。未来，随着更多研究人员和工程师参与改进模型及其应用，训练效率将得到提高，从而实现下一代创新研究和商业应用，例如科学模拟与生成式人工智能的联动，以及拥有成千上万人工智能的虚拟社区的社会模拟。研究背景近年来，大型语言模型（LLM）的发展十分活跃，尤其是在美国。其中，由 OpenAI 开发的 ChatGPT(6) 的迅速普及，对研发、经济体系和国家安全产生了深远影响。除美国外，其他国家也在本国投入大量人力和计算资源开发 LLM。日本也需要确保用于人工智能研究的计算资源，以免在这场全球竞赛中落后。人们对日本的旗舰超级计算机系统"Fugaku"寄予厚望，因此有必要改善在"Fugaku"上进行大规模分布式培训的计算环境，以满足这些期望。因此，东京工业大学、东北大学、富士通公司、理化学研究所、名古屋大学、CyberAgent 和 Kotoba Technologies 启动了一项关于开发大型语言模型的联合研究项目。各机构/公司的作用东京工业大学：大型语言模型的总体监督、并行化和通信加速（通过三种并行化组合优化通信性能，加速 Tofu 互联 D 上的集体通信）东北大学收集训练数据和选择模型富士通加速计算和通信（加速 Tofu 互联 D 上的集体通信、优化流水线并行化的性能）以及实施预训练和训练后微调理化学研究所：大规模语言模型的分布式并行化和通信加速（Tofu 互联 D 上的集体通信加速）名古屋大学研究 Fugaku-LLM 在 3D 生成式人工智能中的应用方法CyberAgent：提供训练数据Kotoba Technologies：将深度学习框架移植到 Fugaku未来发展这项研究的成果将通过 GitHub 和 Hugging Face 公开，以便其他研究人员和工程师可以利用这些成果进一步开发大型语言模型。只要用户遵守许可协议，Fugaku-LLM 可用于研究和商业目的。从 2024 年 5 月 10 日起，Fugaku-LLM 还将通过富士通研究门户网站提供给用户。未来，随着越来越多的研究人员和工程师参与到模型及其应用的改进中来，训练的效率将得到提高，从而实现下一代创新研究和商业应用，例如科学模拟与生成式人工智能的联系，以及拥有成千上万人工智能的虚拟社区的社会模拟。本研究得到了 Fugaku 政策支持提案"利用 Fugaku 开发大型语言模型的分布式并行训练"（提案号：hp230254）的支持。 ... PC版：手机版：

：一个开源引擎，用于微调和提供大型语言模型的服务，是定制和提供LLM的最简单方式

：一个开源引擎，用于微调和提供大型语言模型的服务，是定制和提供LLM的最简单方式主要特征适用于你喜爱的模型的即用型 API：部署和服务开源基础模型 - 包括 LLaMA、MPT 和 Falcon。使用 Scale 托管模型或部署到您自己的基础设施。微调基础模型：根据您自己的数据微调开源基础模型，以优化性能。优化推理：LLM Engine 提供推理 API，用于流式响应和动态批处理输入，以实现更高的吞吐量和更低的延迟。开源集成：使用单个命令部署任何。即将推出的功能 K8s 安装文档：我们正在努力记录您自己的基础设施上推理和微调功能的安装和维护。目前，我们的文档涵盖了使用我们的客户端库访问 Scale 的托管基础设施。快速冷启动时间：为了防止 GPU 闲置，LLM Engine 在不使用模型时会自动将模型缩放为零，并在几秒钟内扩展，即使对于大型基础模型也是如此。成本优化：部署人工智能模型比商业模型更便宜，包括冷启动和预热时间。

发现了个好东西，这个老哥开源了一门课程《从头开始构建大型语言模型》，这门课程将一步步地指导你创建自己的LLM。#AI# #llm

发现了个好东西，这个老哥开源了一门课程《从头开始构建大型语言模型》，这门课程将一步步地指导你创建自己的LLM。#AI# #llm# 每个阶段都有清晰的文本、图表和实例来解释相关概念。课程内容包括： 1. 从基础理解注意力机制 2. 构建并预训练一个类似于GPT的模型 3. 学习如何加载预训练的权重 4. 对模型进行分类任务的微调 5. 使用直接偏好优化进行指令微调模型课程地址：

Stability AI 发布了其新的开放大型语言模型（LLM）StableCode

Stability AI 发布了其新的开放大型语言模型（LLM）StableCode Stability AI 刚刚宣布推出了 StableCode，这是他们首个用于编码的 LLM 生成式人工智能产品。该产品旨在帮助程序员完成日常工作，同时也为准备将技能提升到新水平的新开发人员提供了一个出色的学习工具。旨在帮助开发人员生成代码，并提供三个版本：通用用例的、和，其中长上下文窗口模型支持多达 16,000 个令牌以进行更高级的编程。 StableCode是使用来自开源BigCode项目的编码数据进行训练的，支持Python、Go、Java、JavaScript、C、Markdown和C++等语言的开发。BigCode项目被用作ServiceNow Inc.的StarCoder LLM的基础，该项目是与HuggingFace Inc.合作开发的，并于五月份推出。

：超简单的类GPT语音助手，采用开源大型语言模型 (LLM) 以响应口头请求，完全在树莓派上本地运行。

：超简单的类GPT语音助手，采用开源大型语言模型 (LLM) 以响应口头请求，完全在树莓派上本地运行。它不需要互联网连接或云服务支持。使用按钮触发录音，经过自动语音识别生成文本，然后由 TinyLlama-1.1B LLM 生成回复，并通过 eSpeak 语音合成器产生音频输出。

马斯克用行动反击开源自家顶级大模型压力给到OpenAI

马斯克用行动反击开源自家顶级大模型压力给到OpenAI 有意思的是，Grok-1宣布开源的封面图为Midjourney生成，可谓“AI helps AI”。一直吐槽OpenAI不open的马斯克，自然要在社交平台上含沙射影一番，“我们想了解更多OpenAI的开放部分。”Grok-1遵照Apache 2.0协议开放模型权重和架构。这意味着它允许用户自由地使用、修改和分发软件，无论是个人还是商业用途。这种开放性鼓励了更广泛的研究和应用开发。项目发布至今，已经在GitHub上揽获6.5k星标，热度还在持续增加。项目说明中明确强调，由于Grok-1是一个规模较大（314B参数）的模型，需要有足够GPU内存的机器才能使用示例代码测试模型。网友表示这可能需要一台拥有628 GB GPU内存的机器。此外，该存储库中MoE层的实现效率并不高，之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。目前已开源的热门大模型包括Meta的Llama2、法国的Mistral等。通常来说，发布开源模型有助于社区展开大规模的测试和反馈，意味着模型本身的迭代速度也能加快。Grok-1是一个混合专家（Mixture-of-Experts，MOE）大模型，由马斯克旗下的AI创企xAI在过去4个月里开发。回顾该模型的开发历程：在宣布成立xAI之后，相关研究人员首先训练了一个330亿参数的原型语言模型（Grok-0），这个模型在标准语言模型测试基准上接近LLaMA2（70B）的能力，但使用了更少的训练资源；之后，研究人员对模型的推理和编码能力进行了重大改进，最终开发出了Grok-1并于2023年11月发布，这是一款功能更为强大的SOTA语言模型，在HumanEval编码任务中达到了63.2%的成绩，在MMLU中达到了73%，超过了其计算类中的所有其他模型，包括ChatGPT-3.5和Inflection-1。与其他大模型相比，Grok-1的优势在哪呢？xAI特别强调，Grok-1是他们自己从头训练的大模型，即从2023年10月开始使用自定义训练堆栈在JAX和Rust上训练，没有针对特定任务（如对话）进行微调；Grok-1的一个独特而基本的优势是，它可以通过X平台实时了解世界，这使得它能够回答被大多数其他AI系统拒绝的辛辣问题。Grok-1发布版本所使用的训练数据来自截至2023年第三季度的互联网数据和xAI的AI训练师提供的数据；3140亿参数的Mixture-of-Experts模型，其对于每个token，活跃权重比例为25%，这一庞大的参数量为其提供了强大的语言理解和生成能力。xAI此前介绍，Grok-1将作为Grok背后的引擎，用于自然语言处理任务，包括问答、信息检索、创意写作和编码辅助。未来，长上下文的理解与检索、多模态能力都是该模型将会探索的方向之一。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人