通义千问开源千亿级参数模型

通义千问开源千亿级参数模型 通义千问开源1100亿参数模型Qwen1.5-110B,成为全系列首个千亿级参数开源模型。通义千问1100亿参数模型延续了Qwen1.5系列的Transformer解码器架构,采用了分组查询注意力方法(GQA),使得模型在推理时更加高效。110B模型支持32K上下文长度,具备优秀的多语言能力,支持中、英、法、德、西、俄、日、韩、越、阿拉伯等多种语言。 来源:雪球7X24资讯

相关推荐

封面图片

阿里通义千问开源 320 亿参数模型

阿里通义千问开源 320 亿参数模型 4 月 7 日,阿里云通义千问开源 320 亿参数模型 。通义千问此前已开源 5 亿、18 亿、40 亿、70 亿、140 亿和 720 亿参数 6 款大语言模型。 此次开源的 320 亿参数模型,将在性能、效率和内存占用之间实现更理想的平衡。例如,相比通义千问 14B 开源模型,32B 在智能体场景下能力更强;相比通义千问 72B 开源模型,32B 的推理成本更低。通义千问团队希望 32B 开源模型能为企业和开发者提供更高性价比的模型选择。 目前,通义千问共开源了 7 款大语言模型,在海内外开源社区累计下载量突破 300 万。来源, 频道:@kejiqu 群组:@kejiquchat

封面图片

通义千问70亿参数模型上线魔搭社区,开源免费可商用

通义千问70亿参数模型上线魔搭社区,开源免费可商用 AI模型社区魔搭ModelScope上架两款开源模型和,阿里云确认其为通义千问70亿参数通用模型和对话模型,两款模型均开源、免费、可商用。在多个权威测评中,通义千问7B模型取得了远超国内外同等尺寸模型的效果,成为当下业界最强的中英文7B开源模型。 Qwen-7B是支持中、英等多种语言的基座模型,在超过2万亿token数据集上训练,上下文窗口长度达到8k。Qwen-7B-Chat是基于基座模型的中英文对话模型,已实现与人类认知对齐。开源代码支持对Qwen-7B和Qwen-7B-Chat的量化,支持用户在消费级显卡上部署和运行模型。 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

阿里通义千问 Qwen2 大模型发布并同步开源

阿里通义千问 Qwen2 大模型发布并同步开源 阿里通义千问 Qwen2 大模型今日发布,并在 Hugging Face 和ModelScope 上同步开源。据悉,Qwen2 系列涵盖5个尺寸的预训练和指令微调模型,其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B,上下文长度支持进一步扩展,最高达128K tokens。

封面图片

通义千问GPT-4级主力模型降价97%,1块钱200万tokens

通义千问GPT-4级主力模型降价97%,1块钱200万tokens 5月21日, 阿里云宣布通义千问GPT-4级主力模型Qwen-Long,API输入价格从0.02元/千tokens降至0.0005元/千tokens,直降97%。这意味着,1块钱可以买200万tokens。这款模型最高支持1千万tokens长文本输入,降价后约为GPT-4价格的1/400。(全天候科技) 标签: #阿里云 #通义千问 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

阿里巴巴向公众开放人工智能模型“通义千问”

阿里巴巴向公众开放人工智能模型“通义千问” 路透上海9月13日 - 阿里巴巴周三表示,将向公众开放其人工智能模型“通义千问”,这表明该公司已获得中国监管部门批准大规模销售该模型。 随着人工智能技术日益成为与美国竞争的焦点,中国当局最近加大力度支持企业开发人工智能。 据阿里云智能事业部微信公众号发布的消息称,OPPO、淘宝、钉钉、浙江大学等机构已达成合作协议,将训练自己的大型语言模型或基于通义千问开发语言模型应用。 该帖子还表示,在不久的将来,大语言模型的开源版本将可供“全社会”免费商业使用。

封面图片

HuggingFace搭建新系统测试模型能力 通义千问排名第一 部分模型被发现作弊

HuggingFace搭建新系统测试模型能力 通义千问排名第一 部分模型被发现作弊 该平台称以前的数据测试集对于现在新推出的模型来说实在是太简单了,就像是拿初中试卷给高中生考试一样,因此无法真正有效的评估模型能力。而且出于营销和宣传考虑,部分模型实际上存在作弊行为,即使用经过优化的提示词或评估设置来为模型提供最佳机会,这样可以取得更高的分数。这种情况就像是部分 Android 厂商在进行跑分测试时会冻结其他应用释放内存和降低 CPU 使用率,甚至还会通过外部硬件进行降温来获得更过的基准测试分数。基于这种原因 HuggingFace 此前构建了 Open LLM Leaderboard,通过设置完全相同的问题、相同的排序等来评估模型,收集在真实世界中用户也可以重现和可比较的结果。现在为了尽可能获得真实有效的评估结果,HuggingFace 推出了 Open LLM Leaderboard v2 版,使用 300 张英伟达的 H100 加速卡和数据集对模型进行了重新评估。在最新发布的测试中,阿里云推出的通义千问系列模型超过 Meta Llama 系列模型成为综合能力最强的模型,获得第一的具体模型是通义千问 Qwen-72B 版。此次测试有几个特点:测试显示模型参数规模并不是越大越好,也就是有些超大规模参数的模型能力也不是特别好新的评测有效解决了此前评测难度太低的问题,可以更好的反映目前模型的真实能力有迹象表明 AI 公司开始关注于主要测试,而忽略了其他方面的表现,也就是只关注跑分这应该是目前 AI 行业里首次有明确提到测试作弊的说法,也就是一些开发商现在可能会侧重于对基准测试进行优化以取得更好的分数,这种情况显然是不好的,但由于 AI 公司现在实在是太多,这些公司为了表现自己用于宣传或融资等目的,只能尽可能优化分数来吸引人注意。除了常规的作弊方法外 (就是上面提到的使用优化后的提示词和测试设置),这种针对基准测试进行优化的做法难以发现,未来行业可能要花费更多时间构建更独特的测试集来评估模型。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人