英伟达联合推出 StarCoder2 模型:生成、补全、调试代码一气呵成

英伟达联合推出 StarCoder2 模型:生成、补全、调试代码一气呵成 英伟达联合 Hugging Face 和 ServiceNow,发布了名为的 LLMs 系列模型,希望成为代码生成领域的新标准,具备性能、透明度和成本效益等诸多优势。 该系列模型包括一个由 ServiceNow 训练的 30 亿参数模型、一个由 Hugging Face 训练的 70 亿参数模型和一个由英伟达训练的 150 亿参数模型。这是通过使用名为 Stack v2 的新代码数据集实现的,该数据集比 Stack v1 大七倍;新的训练技术也意味着该模型可以更好地理解 COBOL 等低资源编程语言、数学和程序源代码讨论。 StarCoder2 经过 619 门编程语言培训,可以执行源代码生成、工作流生成、文本摘要等专业任务。英伟达表示,开发人员可以利用它进行代码补全、高级代码总结、代码片段检索等,从而提高工作效率。 StarCoder2 采用 BigCode Open RAIL-M 许可证,允许免版税访问和使用。 频道:@kejiqu 群组:@kejiquchat

相关推荐

封面图片

Hugging Face 和 ServiceNow 发布免费代码生成模型 StarCoder

Hugging Face 和 ServiceNow 发布免费代码生成模型 StarCoder AI 创业公司 Hugging Face 和 ServiceNow 发布了免费的代码生成模型 。类似 DeepMind 的AlphaCode、亚马逊的 CodeWhisperer 和 GitHub 的 Copilot(基于 OpenAI 的 Codex),StarCoder 使用 Apache License 2.0 许可证,允许任何人免费使用,但严格意义上不是开源模型,它禁止用户使用该模型生成或传播恶意代码。StarCoder 使用了开源代码数据集 The Stack 训练,有 150 亿参数。其数据集包括了逾 80 种不同编程语言和来自 github issues 和 commits 的文本。#AI 来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

人人都是程序员,英伟达 联合推出 StarCoder2 模型:生成、补全、调试代码一气呵成

封面图片

:开源代码语言模型,包含了英语和中文两种语言版本的代码生成模型。

:开源代码语言模型,包含了英语和中文两种语言版本的代码生成模型。 模型经过大规模训练,训练数据中87%为代码数据,13%为自然语言数据。模型大小提供1B、5.7B、6.7B、33B等多个版本,满足不同需求。 模型在人工评估、多语言程序、MBPP、DS-1000等多个编程基准上均表现出色,在项目级代码补全、代码插入等任务有很好的效果。

封面图片

是一个15.5B参数模型,使用80多种编程语言的GitHub代码进行训练。

是一个15.5B参数模型,使用80多种编程语言的GitHub代码进行训练。 该模型采用了多查询注意力和8192个Token的上下文窗口,使用了1万亿个Token的填充中间目标进行训练。可用于生成代码片段,但生成的代码不保证有效、没有漏洞或不包含漏洞 |

封面图片

CodeGeeX:这是一个具有 130 亿参数的大规模多语言代码生成模型,开源版的copilot,CodeGeeX是一个具有13

CodeGeeX:这是一个具有 130 亿参数的大规模多语言代码生成模型,开源版的copilot,CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型。支持生成Python、C++、Java、JavaScript和Go等多种主流编程语言的代码 ​​​ ||

封面图片

北大推出“最强编程助手”:代码大模型 CodeShell-7B 开源

北大推出“最强编程助手”:代码大模型 CodeShell-7B 开源 10 月 19 日消息,北京大学软件工程国家工程研究中心知识计算实验室联合四川天府银行 AI 实验室,今天正式开源旗下 70 亿参数的代码大模型 CodeShell,号称“同等规模最强代码基座”。 官方已经在 GitHub 开源了模型、相关配套方案及 IDE 插件,支持商用。有兴趣的可以。 项目详情中介绍,CodeShell-7B 基于 5000 亿 Tokens 进行了冷启动训练,上下文窗口长度为 8192,架构设计上融合了 StarCoder 和 Llama 两者的核心特性。 官方声称,CodeShell 的原始训练数据基于自家爬取的 Github 数据、Stack 和 StarCoder 数据集,以及少量“高质量的中英文数据”,这些预训练数据均经过了“数据判重、数据过滤规则、数据质量模型一系列流水线”。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人