度小满开源 千亿参数金融大模型 “轩辕”

度小满开源千亿参数金融大模型“轩辕”近日,度小满正式开源国内首个千亿级中文金融大模型——“轩辕”。据介绍,轩辕大模型是在1760亿参数的Bloom大模型基础上训练而来,在金融名词理解、金融市场评论、金融数据分析和金融新闻理解等任务上,效果相较于通用大模型大幅提升,表现出明显的金融领域优势。据了解,“轩辕”在一套针对金融领域的评测中取得较好成绩。在金融名词理解、金融市场评论、金融数据分析和金融新闻理解等四个方面的150个问题中,“轩辕”的胜率达到63.3%,显著优于其他三种主流开源大模型,其在金融领域的优势十分突显。在通用能力评测中,轩辕有10.2%的任务表现超越ChatGPT3.5,61.22%的任务表现与之持平,涉及数学计算、场景写作、逻辑推理、文本摘要等13个主要维度。Huggingface:https://huggingface.co/xyz-nlp/XuanYuan2.0频道:@TestFlightCN

相关推荐

封面图片

通义千问开源千亿级参数模型

通义千问开源千亿级参数模型通义千问开源1100亿参数模型Qwen1.5-110B,成为全系列首个千亿级参数开源模型。通义千问1100亿参数模型延续了Qwen1.5系列的Transformer解码器架构,采用了分组查询注意力方法(GQA),使得模型在推理时更加高效。110B模型支持32K上下文长度,具备优秀的多语言能力,支持中、英、法、德、西、俄、日、韩、越、阿拉伯等多种语言。来源:雪球7X24资讯

封面图片

腾讯混元文生图大模型全面开源

腾讯混元文生图大模型全面开源5月25日获悉,腾讯近日宣布旗下混元文生图大模型全面升级,并对外开源。这是业内首个中文原生的DiT架构文生图开源模型,具备原生中文理解能力和双语编码能力,参数量15亿。此次开源的模型包含模型权重、推理代码、模型算法等完整模型,供企业与个人开发者免费商用,目前已在专注于自然语言处理的开源机器学习平台HuggingFace及面向软件开发者的代码托管平台Github上发布。腾讯混元文生图技术负责人芦清林介绍,升级后的混元文生图大模型采用了与Sora一致的DiT架构,不仅可支持文生图,也可作为文生视频等多模态视觉生成的基础。混元文生图大模型的开源,将丰富以中文为主的文生图开源生态,推动中文文生图技术研发和应用。(科技日报)

封面图片

英伟达的通用大模型 Nemotron,开源了最新的 3400 亿参数版本。

英伟达的通用大模型Nemotron,开源了最新的3400亿参数版本。本周五,英伟达宣布推出Nemotron-4340B。它包含一系列开放模型,开发人员可以使用这些模型生成合成数据,用于训练大语言模型(LLM),可用于医疗健康、金融、制造、零售等所有行业的商业应用。高质量的训练数据在自定义LLM的响应性能、准确性和质量中起着至关重要的作用——但强大的数据集经常是昂贵且难以访问的。通过独特的开放模型许可,Nemotron-4340B为开发人员提供了一种免费、可扩展的方式来生成合成数据,从而帮助人们构建强大的LLM。Nemotron-4340B系列包括基础、Instruct和Reward模型,它们形成了一个pipeline,用于生成训练和改进LLM的合成数据。这些模型经过优化,可与NVIDIANeMo配合使用,后者是一个用于端到端模型训练的开源框架,包括数据管理、定制和评估。它们还针对开源NVIDIATensorRT-LLM库的推理进行了优化。英伟达表示,Nemotron-4340B现已可从HuggingFace下载。开发人员很快就能在ai.nvidia.com上访问这些模型,它们将被打包为NVIDIANIM微服务,并带有可在任何地方部署的标准应用程序编程接口。大语言模型可以帮助开发人员在无法访问大型、多样化标记数据集的情况下生成合成训练数据。Nemotron-4340BInstruct模型创建了多样化的合成数据,模仿了现实世界数据的特征,有助于提高数据质量,从而提高自定义LLM在各个领域的性能和鲁棒性。来源:机器之心

封面图片

通义千问320亿参数模型开源

近日,阿里云开源了通义千问Qwen1.5-32B。基础能力方面,Qwen1.5-32B模型在MMLU、GSM8K、HumanEval、BBH等多个测评中表现优异,性能接近通义千问720亿参数模型,远超其他300亿级别参数量模型。Chat模型方面,Qwen1.5-32B-Chat模型在MT-Bench评测得分超过8分,与通义千问720亿参数Chat模型之间的差距相对较小。多语言能力方面,阿里表示,选取了包括阿拉伯语、西班牙语、法语、日语、韩语等在内的12种语言,在考试、理解、数学及翻译等多个领域做了测评。Qwen1.5-32B的多语言能力只略逊于通义千问720亿参数模型。此前,通义千问已开源5亿、18亿、40亿、70亿、140亿和720亿参数尺寸的大模型。其中,几款小尺寸模型可便捷地在端侧部署,720亿参数模型拥有业界领先的性能。Qwen1.5-32B模型旨在性能、效率和内存占用之间达到理想平衡,为下游应用提供更好的解决方案。标签:#通义千问#AI频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

阿里云:通义千问 720 亿参数模型开源 适配企业级、科研级高性能应用

阿里云:通义千问720亿参数模型开源适配企业级、科研级高性能应用阿里云今天举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama2-70B和大部分商用闭源模型。未来,企业级、科研级的高性能应用,也有了开源大模型这一选项。通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。

封面图片

苹果发布 OpenELM 大语言模型,基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型,基于开源训练和推理框架的语言模型在WWDC24之前,苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为OpenELM。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的checkpoint和训练日志,以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人