「羊驼」们走到哪一步了？研究表明：最好的能达到GPT-4性能的68%#抽屉IT

科大讯飞刘庆峰：星火大模型预计上半年达到 GPT-4 Turbo 当前最好水平

科大讯飞刘庆峰：星火大模型预计上半年达到GPT-4Turbo当前最好水平科大讯飞官微消息，2月6日，科大讯飞2023-2024年公司年会在中国科技大学举行。面向2024年，科大讯飞董事长刘庆峰提出讯飞星火认知大模型战略的年度四大目标，其中星火大模型国内领先对标GPT-4，赋能智能硬件终端1000万、独立软件用户数过亿。星火大模型已迭代到星火V3.5，刘庆峰表示，“2024年星火将以肉眼可见的速度升级，预计在今年上半年达到GPT-4Turbo当前最好的水平。”据介绍，科大讯飞2023年全年营收首超200亿，且现金流为正。

OpenAI CEO 最新演讲：GPT-5 性能远超 GPT-4，保持迭代部署很重要

OpenAICEO最新演讲：GPT-5性能远超GPT-4，保持迭代部署很重要4月25日，OpenAI联合创始人兼首席执行官萨姆・奥尔特曼（SamAltman）在斯坦福大学发表演讲，提及AGI（通用人工智能）发展、OpenAI的迭代节奏等。有消息称，这场演讲在英伟达礼堂进行，超一千人在门口排队，热度颇高。"GPT-5会更加智能，这将是历史上最令人瞩目的事件之一。"在一段流出的视频中，奥尔特曼表示，以高度的科学确定性来说，GPT-5将比GPT-4智能很多，GPT-6将比GPT-5智能很多，而我们远未触及极限。此前OpenAI已推出GPT-3.5和GPT-4。对于OpenAI的产品迭代，奥尔特曼认为尽早且频繁推出AI产品，保持迭代部署非常重要，即便现在看来ChatGPT还有点令人尴尬，GPT-4还显得愚蠢。要让社会为技术进步做好准备，依赖于迭代部署。（第一财经）

阿里云发布通义千问2.0 性能超GPT-3.5 正加速追赶GPT-4

阿里云发布通义千问2.0性能超GPT-3.5正加速追赶GPT-4通义千问2.0发布周靖人介绍，过去6个月，通义千问2.0在性能上取得巨大飞跃，相比4月发布的1.0版本，通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前，通义千问的综合性能已经超过GPT-3.5，加速追赶GPT-4。通义千问2.0综合性能超过GPT-3.5，正在加速追赶GPT-4在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上，通义千问2.0的得分整体超越Meta的Llama-2-70B，相比OpenAI的Chat-3.5是九胜一负，相比GPT-4则是四胜六负，与GPT-4的差距进一步缩小。中英文理解能力是大语言模型的基本功。英语任务方面，通义千问2.0在MMLU基准的得分是82.5，仅次于GPT-4，通过大幅增加参数量，通义千问2.0能更好地理解和处理复杂的语言结构和概念；中文任务方面，通义千问2.0以明显优势在C-Eval基准获得最高得分，这是由于模型在训练中学习了更多中文语料，进一步强化了中文理解和表达能力。在数学推理、代码理解等领域，通义千问2.0进步明显。在推理基准测试GSM8K中，通义千问排名第二，展示了强大的计算和逻辑推理能力；在HumanEval测试中，通义千问得分紧跟GPT-4和GPT-3.5，该测试主要衡量大模型理解和执行代码片段的能力，这一能力是大模型应用于编程辅助、自动代码修复等场景的基础。据介绍，通义千问更成熟了，也更好用了。通义千问2.0在指令遵循、工具使用、精细化创作等方面作了技术优化，能够更好地被下游应用场景集成。通义大模型官网上线了多模态和插件功能，支持图片输入、文档解析等细分任务。与此同时，基于通义大模型训练的8大行业模型组团上线，分别是：通义灵码-智能编码助手、通义智文-AI阅读助手、通义听悟-工作学习AI助手、通义星尘-个性化角色创作平台、通义点金-智能投研助手、通义晓蜜-智能客服、通义仁心-个人专属健康助手、通义法睿-AI法律顾问。8大行业模型面向当下最受欢迎的多个垂直场景，使用领域数据进行专门训练。用户可以在官网直接体验模型功能，开发者可以通过网页嵌入、API/SDK调用等方式，将模型能力集成到自己的大模型应用和服务中。通义大模型家族全面升级，8大行业模型组团上线截至10月，阿里云已与60多个行业头部伙伴进行深度合作，推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。周靖人透露，阿里云计划近期开源通义千问72B版本，此前，阿里云已先后开源7B和14B版本模型，模型累计下载量超过100万。阿里云将持续支持千行百业的开发者基于通义千问开源模型进行模型和应用创新。图：通义千问72B即将开源...PC版：https://www.cnbeta.com.tw/articles/soft/1393391.htm手机版：https://m.cnbeta.com.tw/view/1393391.htm

阿里云发布通义千问2.5 称性能赶超GPT-4

阿里云发布通义千问2.5称性能赶超GPT-4中国云计算及人工智能科技公司阿里云发布聊天机器人通义千问2.5大模型，并称该模型性能全面赶超GPT-4。据第一财经报道，阿里云星期四（5月9日）正式发布通义千问2.5。该公司说，与通义千问2.1版本相比，通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%；与GPT-4相比，中文语境下，通义千问2.5文本理解、文本生成、知识问答及生活建议、闲聊及对话、安全风险等多项能力赶超GPT-4。阿里云称，随着通义千问2.5的发布，在权威基准OpenCompass上，该模型得分追平GPT-4Turbo，是中国国产大模型首次在该基准取得该项成绩。GPT-4Turbo是人工智能聊天机器人ChatGPT的研发公司OpenAI推出的最新大型语言模型。此前，中国人工智能巨头商汤科技4月也发布全新升级的日日新SenseNova5.0大模型。澎湃新闻报道，该模型采用混合专家架构（MoE），超10TBtokens训练，覆盖大量合成数据，推理时上下文窗口达200K左右，综合能力全面对标GPT-4Turbo。2024年5月9日7:30PM

阿里云发布通义千问2.5 称性能赶超 GPT-4

阿里云发布通义千问2.5称性能赶超GPT-4阿里云9日正式发布通义千问2.5。阿里云方面表示，该模型性能全面赶超GPT-4Turbo。阿里云表示，与通义千问2.1版本相比，通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%；与GPT-4相比，中文语境下，通义千问2.5文本理解、文本生成、知识问答及生活建议、闲聊及对话、安全风险等多项能力赶超GPT-4。阿里云称，在权威基准OpenCompass上，通义千问2.5得分追平GPT-4Turbo，是中国国产大模型首次在该基准取得该项成绩。——

性能远低于预期 OpenAI据称放弃开发廉价版GPT-4 Arrakis

性能远低于预期OpenAI据称放弃开发廉价版GPT-4Arrakis按照OpenAI的设计初衷，Arrakis将具有与GPT-4一样的能力，但部署成本更低，因为它的部分设计采用了所谓的“分散”原则。这意味着，只有神经网络的一部分被用来处理用户输入。而在传统的“密集模型”中，整个神经网络都是活跃的。当前，谷歌的PathAI项目就使用了“分散”原则。但两位知情人士今日称，OpenAI于今年年中取消了Arrakis项目，因为该模型的运行效率并没有预期的那样高。OpenAI的开发团队意识到，Arrakis的性能远不及GPT-4。目前尚不清楚，为什么“分散”原则在早期的测试中效表现良好，但在后来的开发中却失败了。当前的大语言模型，即生成式人工智能，依赖于巨大的计算能力来运行其复杂的数学模型，企业必须购买大量的高性能芯片，成本非常高。因此，越来越多的公司，包括亚马逊、谷歌、阿里巴巴、Meta和OpenAI等，都在设计自己的特定人工智能芯片。但分析公司CCSInsight上周表示，生成式人工智能已被过度炒作。随着相关成本的增加，以及监管的呼声越来越高，这项新兴的技术将于2024年遇冷。...PC版：https://www.cnbeta.com.tw/articles/soft/1391067.htm手机版：https://m.cnbeta.com.tw/view/1391067.htm

相关推荐

科大讯飞刘庆峰：星火大模型预计上半年达到 GPT-4 Turbo 当前最好水平

OpenAI CEO 最新演讲：GPT-5 性能远超 GPT-4，保持迭代部署很重要

阿里云发布通义千问2.0 性能超GPT-3.5 正加速追赶GPT-4

阿里云发布通义千问2.5 称性能赶超GPT-4

阿里云发布通义千问2.5 称性能赶超 GPT-4

性能远低于预期 OpenAI据称放弃开发廉价版GPT-4 Arrakis