阿里云发布通义千问2.0 性能超GPT-3.5 正加速追赶GPT-4

阿里云发布通义千问2.0性能超GPT-3.5正加速追赶GPT-4通义千问2.0发布周靖人介绍，过去6个月，通义千问2.0在性能上取得巨大飞跃，相比4月发布的1.0版本，通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前，通义千问的综合性能已经超过GPT-3.5，加速追赶GPT-4。通义千问2.0综合性能超过GPT-3.5，正在加速追赶GPT-4在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上，通义千问2.0的得分整体超越Meta的Llama-2-70B，相比OpenAI的Chat-3.5是九胜一负，相比GPT-4则是四胜六负，与GPT-4的差距进一步缩小。中英文理解能力是大语言模型的基本功。英语任务方面，通义千问2.0在MMLU基准的得分是82.5，仅次于GPT-4，通过大幅增加参数量，通义千问2.0能更好地理解和处理复杂的语言结构和概念；中文任务方面，通义千问2.0以明显优势在C-Eval基准获得最高得分，这是由于模型在训练中学习了更多中文语料，进一步强化了中文理解和表达能力。在数学推理、代码理解等领域，通义千问2.0进步明显。在推理基准测试GSM8K中，通义千问排名第二，展示了强大的计算和逻辑推理能力；在HumanEval测试中，通义千问得分紧跟GPT-4和GPT-3.5，该测试主要衡量大模型理解和执行代码片段的能力，这一能力是大模型应用于编程辅助、自动代码修复等场景的基础。据介绍，通义千问更成熟了，也更好用了。通义千问2.0在指令遵循、工具使用、精细化创作等方面作了技术优化，能够更好地被下游应用场景集成。通义大模型官网上线了多模态和插件功能，支持图片输入、文档解析等细分任务。与此同时，基于通义大模型训练的8大行业模型组团上线，分别是：通义灵码-智能编码助手、通义智文-AI阅读助手、通义听悟-工作学习AI助手、通义星尘-个性化角色创作平台、通义点金-智能投研助手、通义晓蜜-智能客服、通义仁心-个人专属健康助手、通义法睿-AI法律顾问。8大行业模型面向当下最受欢迎的多个垂直场景，使用领域数据进行专门训练。用户可以在官网直接体验模型功能，开发者可以通过网页嵌入、API/SDK调用等方式，将模型能力集成到自己的大模型应用和服务中。通义大模型家族全面升级，8大行业模型组团上线截至10月，阿里云已与60多个行业头部伙伴进行深度合作，推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。周靖人透露，阿里云计划近期开源通义千问72B版本，此前，阿里云已先后开源7B和14B版本模型，模型累计下载量超过100万。阿里云将持续支持千行百业的开发者基于通义千问开源模型进行模型和应用创新。图：通义千问72B即将开源...PC版：https://www.cnbeta.com.tw/articles/soft/1393391.htm手机版：https://m.cnbeta.com.tw/view/1393391.htm

在Telegram中查看

相关推荐

阿里云发布通义千问2.5 称性能赶超 GPT-4

阿里云发布通义千问2.5称性能赶超GPT-4阿里云9日正式发布通义千问2.5。阿里云方面表示，该模型性能全面赶超GPT-4Turbo。阿里云表示，与通义千问2.1版本相比，通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%；与GPT-4相比，中文语境下，通义千问2.5文本理解、文本生成、知识问答及生活建议、闲聊及对话、安全风险等多项能力赶超GPT-4。阿里云称，在权威基准OpenCompass上，通义千问2.5得分追平GPT-4Turbo，是中国国产大模型首次在该基准取得该项成绩。——

阿里云发布通义千问2.5 称性能赶超GPT-4

阿里云发布通义千问2.5称性能赶超GPT-4中国云计算及人工智能科技公司阿里云发布聊天机器人通义千问2.5大模型，并称该模型性能全面赶超GPT-4。据第一财经报道，阿里云星期四（5月9日）正式发布通义千问2.5。该公司说，与通义千问2.1版本相比，通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%；与GPT-4相比，中文语境下，通义千问2.5文本理解、文本生成、知识问答及生活建议、闲聊及对话、安全风险等多项能力赶超GPT-4。阿里云称，随着通义千问2.5的发布，在权威基准OpenCompass上，该模型得分追平GPT-4Turbo，是中国国产大模型首次在该基准取得该项成绩。GPT-4Turbo是人工智能聊天机器人ChatGPT的研发公司OpenAI推出的最新大型语言模型。此前，中国人工智能巨头商汤科技4月也发布全新升级的日日新SenseNova5.0大模型。澎湃新闻报道，该模型采用混合专家架构（MoE），超10TBtokens训练，覆盖大量合成数据，推理时上下文窗口达200K左右，综合能力全面对标GPT-4Turbo。2024年5月9日7:30PM

阿里巴巴 CEO 吴泳铭：通义千问正释放基础大模型能力，加快追赶 GPT-4

阿里巴巴集团CEO、阿里云智能董事长吴泳铭近日在《中国网信杂志》撰文称，作为国内基础大模型的代表之一，通义千问正加快追赶GPT-4，并把基础大模型能力释放出来。吴泳铭表示，AI大模型将开启全新的智能时代，引发人机交互、计算范式和认知协作三场革命，通过开放API/SDK调用等方式，千行百业的开发者和企业用户不仅可以便捷开发人工智能原生应用，还可以与合作伙伴高效实现产业协同，促进大模型上下游产业链融合发展。吴泳铭还认为，AI的发展需要激发全社会的创新和创造力。via匿名标签:#阿里巴巴#通义千问频道:@GodlyNews1投稿:@GodlyNewsBot

通义千问GPT-4级主力模型降价97%，1块钱200万tokens

通义千问GPT-4级主力模型降价97%，1块钱200万tokens5月21日，阿里云宣布通义千问GPT-4级主力模型Qwen-Long，API输入价格从0.02元/千tokens降至0.0005元/千tokens，直降97%。这意味着，1块钱可以买200万tokens。这款模型最高支持1千万tokens长文本输入，降价后约为GPT-4价格的1/400。（全天候科技）标签:#阿里云#通义千问频道:@GodlyNews1投稿:@GodlyNewsBot

快手：快意通用大语言模型能力已超 GPT-3.5 营销能力齐平 GPT-4

快手：快意通用大语言模型能力已超GPT-3.5营销能力齐平GPT-4快手商业化算法负责人江鹏今日在2024快手磁力大会上表示，快意通用大语言模型能力超过GPT-3.5，通过对快意大模型进行千亿级Token商业知识预训练、百万级商业指令对齐等，快手进一步研发了业界领先的营销域大语言模型。该模型能生成符合快手风格的素材，在营销领域的能力已与GPT-4齐平。据透露，快手女娲数字人平台能支撑超过2200路数字人24小时同时开播，盘古视频AIGC能够让营销转化率提升33%。

阿里云：通义千问 720 亿参数模型开源适配企业级、科研级高性能应用

阿里云：通义千问720亿参数模型开源适配企业级、科研级高性能应用阿里云今天举办通义千问发布会，开源通义千问720亿参数模型Qwen-72B。Qwen-72B在10个权威基准测评创下开源模型最优成绩，成为业界最强开源大模型，性能超越开源标杆Llama2-70B和大部分商用闭源模型。未来，企业级、科研级的高性能应用，也有了开源大模型这一选项。通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。至此，通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现“全尺寸、全模态”开源。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人