IBM 开源 Granite 代码模型

IBM开源Granite代码模型IBM开源了它用于辅助编程的代码模型,源代码托管在GitHub上,采用ApacheLicense2.0许可证,允许商业使用。与其它AI模型不同的是,IBM致力于避免模型的版权问题,使用了开放数据集如GitHubCodeClean、Starcoder、开放代码库和GitHubissues等进行训练。Granite是decoder-only代码模型,可用于修bug、解释代码和生成代码文档,使用了116种编程语言的代码进行训练,参数规模30亿、80亿、200亿和340亿。IBM称测试显示Granite在开源代码模型中表现最出色。来源,频道:@kejiqu群组:@kejiquchat

相关推荐

封面图片

IBM发布开源模型Granite Code 在编程任务中超过谷歌模型

IBM发布开源模型GraniteCode在编程任务中超过谷歌模型IBM最近发布了一组名为"GraniteCode"的开源型,旨在帮助企业完成各种软件开发任务,并在基准测试中表现出色。这些模型不仅过了一些较大的开源竞争对手,而且在编程任务中展现出了强大的性能。GraniteCode型分为基础模型和指导模型,每种模型都有四个不同规模的变种,参数数量从30到340亿不等。这些模型的上下文窗口相对较短,例如,其中一个模型的上下文窗口只有128K,这限制了其在包含特定文档或自己的代码库等提示信息时的有效性。不过,IBM目正在开发具有更大上下文窗口的版本。基础模型的训练分为两个阶段。第一阶段使用自116种编程语言的3-4万亿个标记进行训练,以建立广泛的理解能力。在第阶段,这些模型使用来自高质量代码和自然语言数据的5000亿个标记进行进一步训练,以强逻辑推理能力。指导模型是通过对基础模型进行改进而创建的,改进方法包括筛选提交记录、自然语言指令记录和合成生成的代码数据集。在包括代码合成、调试、解释、编辑、学推理等多个基准测试中,GraniteCode模型在各个规模和基准测试中表现出色,常常超过开源模型两倍以上的大小。例如,在HumanEvalPack基准测试中,Granite-8B-Code-Base的平均得为33.2%,超过Google最佳表现的CodeGemma-8B模型的21.3%,尽管Granite-8-Code-Base所使用的标记数量明显较少。这些模型的大部分训练数据来自一个清理过的GitHub集StarCoderData和其他公开可用的代码库。这一点非常重要,因为目前有一些关于其他代码型(包括GitHub本身)涉嫌侵犯训练数据版权的诉讼。IBM计划定期更新这些模型,很快将推出具有更大上下文窗口以及针对Python和Java的专业化版本。这些模型已经在HuggingFaceGitHub上可用,并且也是IBM的watsonx企业平台的一部分。IBM的GraniteCode是一专门用于编程的开源模型,它们在基准测试中表现优异,同时具有较少的参数数量。些模型的特点包括灵活的规模选择、基于广泛训练数据的逻辑推理能力和良好的性能未来,IBM还计划不断改进和更新这些模型,以满足不同编程任务的需求。产品入口:https://top.aibase.com/tool/granite-code-models...PC版:https://www.cnbeta.com.tw/articles/soft/1430826.htm手机版:https://m.cnbeta.com.tw/view/1430826.htm

封面图片

DeepSeek Coder 成为第一个打败 GPT-4 Turbo 的开源代码模型

DeepSeekCoder成为第一个打败GPT-4Turbo的开源代码模型中国AI创业公司DeepSeek的成为第一个打败GPT-4Turbo的开源代码模型。DeepSeek上个月发布了混合专家模型,它的代码模型DeepSeekCoderV2就是基于该模型,它支持逾300种编程语言,在编程任务中超过了最先进的闭源模型如GPT-4Turbo、Claude3Opus和Gemini1.5Pro。在MBPP+、HumanEval和Aider编程测试中,DeepSeekCoderV2获得了76.2、90.2和73.7分;在MATH和GSM8K等数学测试中,DeepSeekCoderV2表现也类似。DeepSeekCoderV2采用了MIT许可证,对商业使用不设限制,它有160亿和2360亿参数两个版本。来源,频道:@kejiqu群组:@kejiquchat

封面图片

Hugging Face 和 ServiceNow 发布免费代码生成模型 StarCoder

HuggingFace和ServiceNow发布免费代码生成模型StarCoderAI创业公司HuggingFace和ServiceNow发布了免费的代码生成模型。类似DeepMind的AlphaCode、亚马逊的CodeWhisperer和GitHub的Copilot(基于OpenAI的Codex),StarCoder使用ApacheLicense2.0许可证,允许任何人免费使用,但严格意义上不是开源模型,它禁止用户使用该模型生成或传播恶意代码。StarCoder使用了开源代码数据集TheStack训练,有150亿参数。其数据集包括了逾80种不同编程语言和来自githubissues和commits的文本。#AI来源,https://github.com/bigcode-project/starcoder来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

北大推出“最强编程助手”:代码大模型 CodeShell-7B 开源

北大推出“最强编程助手”:代码大模型CodeShell-7B开源10月19日消息,北京大学软件工程国家工程研究中心知识计算实验室联合四川天府银行AI实验室,今天正式开源旗下70亿参数的代码大模型CodeShell,号称“同等规模最强代码基座”。官方已经在GitHub开源了模型、相关配套方案及IDE插件,支持商用。有兴趣的可以。项目详情中介绍,CodeShell-7B基于5000亿Tokens进行了冷启动训练,上下文窗口长度为8192,架构设计上融合了StarCoder和Llama两者的核心特性。官方声称,CodeShell的原始训练数据基于自家爬取的Github数据、Stack和StarCoder数据集,以及少量“高质量的中英文数据”,这些预训练数据均经过了“数据判重、数据过滤规则、数据质量模型一系列流水线”。——

封面图片

IBM宣布在watsonx上提供开源Mistral AI模型

IBM宣布在watsonx上提供开源MistralAI模型这有可能将延迟时间缩短35-75%,具体取决于批量大小--加快洞察时间。这是通过一个称为量化的过程实现的,该过程减少了LLM的模型大小和内存需求,反过来又能加快处理速度,有助于降低成本和能耗。Mixtral-8x7B的加入扩展了IBM的开放式多模型战略,以满足客户的需求,为他们提供选择和灵活性,从而在其业务中扩展企业人工智能解决方案。通过数十年的人工智能研发、与Meta和HuggingFace的开放合作以及与模型领导者的合作,IBM正在扩展其watsonx.ai模型目录,并引入新的功能、语言和模式。IBM的企业就绪基础模型选择及其watsonx人工智能和数据平台可以帮助客户利用生成式人工智能获得新的洞察力和效率,并基于信任原则创建新的业务模式。IBM可帮助客户为金融等目标业务领域的正确用例和性价比目标选择正确的模型。Mixtral-8x7B采用了稀疏建模(一种创新技术,只查找和使用数据中最重要的部分,以创建更高效的模型)和专家混合技术(Mixture-of-Experts)的组合,后者将擅长并解决不同部分问题的不同模型("专家")结合在一起。Mixtral-8x7B模型因其能够快速处理和分析海量数据,提供与背景相关的见解而广为人知。IBM软件公司产品管理与增长高级副总裁KareemYusuf博士说:"客户要求有选择性和灵活性,以便部署最适合其独特用例和业务要求的模型。通过在watsonx上提供Mixtral-8x7B和其他模型,我们不仅为他们提供了部署人工智能的可选性,还为人工智能构建者和业务领导者提供了一个强大的生态系统,使他们能够利用工具和技术推动不同行业和领域的创新。"本周,IBM还宣布在watsonx上提供由ELYZA公司开源的日本LLM模型ELYZA-japanese-Llama-2-7b。IBM还在watsonx上提供Meta的开源模型Llama-2-13B-chat和Llama-2-70B-chat以及其他第三方模型,未来几个月还将提供更多。...PC版:https://www.cnbeta.com.tw/articles/soft/1422447.htm手机版:https://m.cnbeta.com.tw/view/1422447.htm

封面图片

英伟达联合推出 StarCoder2 模型:生成、补全、调试代码一气呵成

英伟达联合推出StarCoder2模型:生成、补全、调试代码一气呵成英伟达联合HuggingFace和ServiceNow,发布了名为的LLMs系列模型,希望成为代码生成领域的新标准,具备性能、透明度和成本效益等诸多优势。该系列模型包括一个由ServiceNow训练的30亿参数模型、一个由HuggingFace训练的70亿参数模型和一个由英伟达训练的150亿参数模型。这是通过使用名为Stackv2的新代码数据集实现的,该数据集比Stackv1大七倍;新的训练技术也意味着该模型可以更好地理解COBOL等低资源编程语言、数学和程序源代码讨论。StarCoder2经过619门编程语言培训,可以执行源代码生成、工作流生成、文本摘要等专业任务。英伟达表示,开发人员可以利用它进行代码补全、高级代码总结、代码片段检索等,从而提高工作效率。StarCoder2采用BigCodeOpenRAIL-M许可证,允许免版税访问和使用。https://github.com/bigcode-project/starcoder2https://huggingface.co/bigcode频道:@kejiqu群组:@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人