：开源代码语言模型，包含了英语和中文两种语言版本的代码生成模型。

：开源代码语言模型，包含了英语和中文两种语言版本的代码生成模型。模型经过大规模训练，训练数据中87%为代码数据，13%为自然语言数据。模型大小提供1B、5.7B、6.7B、33B等多个版本，满足不同需求。模型在人工评估、多语言程序、MBPP、DS-1000等多个编程基准上均表现出色，在项目级代码补全、代码插入等任务有很好的效果。

在Telegram中查看

相关推荐

StarCoder2 编码开源模型，代码、数据、模型全部都开源了。

StarCoder2 编码开源模型，代码、数据、模型全部都开源了。 StarCoder2 使用 16k Token上下文和 4T+Token的存储库级信息进行训练。 The Stack v2 数据集- 拥有 900B+ Token的最大代码数据集。项目地址：

IBM 开源 Granite 代码模型

IBM 开源 Granite 代码模型 IBM 开源了它用于辅助编程的代码模型，源代码托管在 GitHub 上，采用 Apache License 2.0 许可证，允许商业使用。与其它 AI 模型不同的是，IBM 致力于避免模型的版权问题，使用了开放数据集如 GitHub Code Clean、Starcoder、开放代码库和 GitHub issues 等进行训练。Granite 是 decoder-only 代码模型，可用于修 bug、解释代码和生成代码文档，使用了 116 种编程语言的代码进行训练，参数规模 30 亿、80 亿、200 亿和 340 亿。IBM 称测试显示 Granite 在开源代码模型中表现最出色。来源，频道：@kejiqu 群组：@kejiquchat

Hugging Face 和 ServiceNow 发布免费代码生成模型 StarCoder

Hugging Face 和 ServiceNow 发布免费代码生成模型 StarCoder AI 创业公司 Hugging Face 和 ServiceNow 发布了免费的代码生成模型。类似 DeepMind 的AlphaCode、亚马逊的 CodeWhisperer 和 GitHub 的 Copilot(基于 OpenAI 的 Codex)，StarCoder 使用 Apache License 2.0 许可证，允许任何人免费使用，但严格意义上不是开源模型，它禁止用户使用该模型生成或传播恶意代码。StarCoder 使用了开源代码数据集 The Stack 训练，有 150 亿参数。其数据集包括了逾 80 种不同编程语言和来自 github issues 和 commits 的文本。#AI 来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

英伟达联合推出 StarCoder2 模型：生成、补全、调试代码一气呵成

英伟达联合推出 StarCoder2 模型：生成、补全、调试代码一气呵成英伟达联合 Hugging Face 和 ServiceNow，发布了名为的 LLMs 系列模型，希望成为代码生成领域的新标准，具备性能、透明度和成本效益等诸多优势。该系列模型包括一个由 ServiceNow 训练的 30 亿参数模型、一个由 Hugging Face 训练的 70 亿参数模型和一个由英伟达训练的 150 亿参数模型。这是通过使用名为 Stack v2 的新代码数据集实现的，该数据集比 Stack v1 大七倍；新的训练技术也意味着该模型可以更好地理解 COBOL 等低资源编程语言、数学和程序源代码讨论。 StarCoder2 经过 619 门编程语言培训，可以执行源代码生成、工作流生成、文本摘要等专业任务。英伟达表示，开发人员可以利用它进行代码补全、高级代码总结、代码片段检索等，从而提高工作效率。 StarCoder2 采用 BigCode Open RAIL-M 许可证，允许免版税访问和使用。频道：@kejiqu 群组：@kejiquchat

开源DBRX高性能大语言模型

开源DBRX高性能大语言模型 DBRX是Databricks开发的开源通用语言模型，在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好，尤其在编程和数学推理方面优于其他开源模型。与开源模型相比，DBRX在MMLU数据集上的表现也是最好的。根据测试，DBRX甚至超过了专门用于编程的CodeLLAMA-70B，并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini 1.0 Pro和Mistral Medium等商业模型有竞争力。 DBRX使用混合专家(MoE)架构，使其在训练和推理上更加高效。与类似参数量的非MoE模型相比，DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍，这得益于更好的数据、MoE架构以及其他改进。 DBRX已经在Databricks的GenAI产品中进行了集成，客户可以通过API使用该模型。DBRX的训练代码和模型也在Hugging Face平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型，也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

CodeGeeX：这是一个具有 130 亿参数的大规模多语言代码生成模型，开源版的copilot，CodeGeeX是一个具有13

CodeGeeX：这是一个具有 130 亿参数的大规模多语言代码生成模型，开源版的copilot，CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型。支持生成Python、C++、Java、JavaScript和Go等多种主流编程语言的代码 ||

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人