近日，由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜

近日，由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示，百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一，超过字节云雀、豆包和阿里通义千问等一众国产大模型，以及OpenAI的最新模型GPT-4o。在中文语境下，以文心大模型为代表的国内头部语言模型的综合表现已超过国际一流水平的表现。

在Telegram中查看

相关推荐

百度称文心大模型3.5版多项评测超越ChatGPT

百度称文心大模型3.5版多项评测超越ChatGPT中国互联网巨头百度称，百度所开发的AI产品“文心一言”在多项关键评测超越由微软旗下OpenAI所开发的ChatGPT。据路透社报道，百度星期二（6月27日）在一份声明中说，文心大模型3.5版在几个中文能力评测的表现比GPT-4优秀，而且综合能力的评测超越了ChatGPT，但稍逊于GPT-4。上述评测是在AGIEval、C-Eval和MMLU三个评测基准上进行综合评估。百度称，评测结果显示，文心大模型3.5版具有更好的训练和推理效率，这使文心一言未来能以更快、成本更低的方式进行迭代。据新浪科技引述知情人士报道，除了文心大模型3.5，评测的模型还有ChatGPT、GPT-4、ChatGLM、LLaMa系列大模型。上述结果也意味着，文心大模型3.5目前领先于其他开源大模型。

零一万物创始人兼CEO李开复今日发布千亿参数Yi-Large闭源模型。李开复透露，闭源大模型Yi-Large评测超越ChatGP

零一万物创始人兼CEO李开复今日发布千亿参数Yi-Large闭源模型。李开复透露，闭源大模型Yi-Large评测超越ChatGPT4。当被问及大模型爆发是否会带来中国创业公司的大规模洗牌时，李开复向《每日经济新闻》记者表示，现在对中国大模型创业公司的盖棺定论为时过早，中国的创业者永远超出想象力。李开复同时表示，ofo式的补贴逻辑不再适用于AI2.0，希望大模型赛道的竞争聚焦于达成TC-PMF（产品市场匹配）。（每经）

豆包大模型披露评测成绩，较上一代 “云雀” 提升 19%

豆包大模型披露评测成绩，较上一代“云雀”提升19%在火山引擎的一份产品资料中，豆包模型团队公布了一期内部测试结果：在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上，Doubao-pro-4k的总分为76.8分，相比上一代模型云雀Skylark2的64.5分提升了19%，也优于同期测试的其他国产模型。此次评测在今年5月完成，主要包括豆包通用模型-pro、云雀Skylark2在内的九款国产大语言模型。除了云雀Skylark2以外，其他模型均为各家厂商最新发布的高级版本，通过API调用进行测试。据悉，豆包模型在5月15日刚刚推出，尚未加入到第三方机构测试中。预计未来一到两个月内，很多第三方评测机构将会陆续披露该模型的评测结果。（全天候科技）

全天候科技获悉，在火山引擎的一份产品资料中，豆包模型团队公布了一期内部测试结果：在MMLU、BBH、GSM8K、HumanEva

全天候科技获悉，在火山引擎的一份产品资料中，豆包模型团队公布了一期内部测试结果：在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上，Doubao-pro-4k的总分为76.8分，相比上一代模型云雀Skylark2的64.5分提升了19%，也优于同期测试的其他国产模型。此次评测在今年5月完成，主要包括豆包通用模型-pro、云雀Skylark2在内的九款国产大语言模型。除了云雀Skylark2以外，其他模型均为各家厂商最新发布的高级版本，通过API调用进行测试。据悉，豆包模型在5月15日刚刚推出，尚未加入到第三方机构测试中。预计未来一到两个月内，很多第三方评测机构将会陆续披露该模型的评测结果。

清华大模型报告：文心一言中文理解、数学等多项能力全球第一

清华大模型报告：文心一言中文理解、数学等多项能力全球第一最近，由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架，正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型，在人类对齐能力评测中，文心一言4.0表现位居国内第一，其中在中文推理、中文语言等评测上，文心一言分数领先，和其他模型拉开明显差距，中文理解上，文心一言4.0领先优势明显，领先第二名GLM-40.41分，GPT-4系列模型表现较差，排在中下游，并且和第一名文心一言4.0分差超过1分。在语义理解中的数学能力上，文心一言4.0与Claude-3并列全球第一；GPT-4系列模型位列第四五，其他模型得分在55分附近较为集中，明显落后第一梯队；而在语义理解中的阅读理解能力上，文心一言4.0超过GPT-4Turbo、Claude-3以及GLM-4拿下榜首。在安全性评测上，国内模型文心一言4.0拿下最高分（89.1分），Claude-3仅列第四。来源：财经慢报频道

华尔街见闻获悉，在火山引擎的一份产品资料中，豆包模型团队公布了一期内部测试结果：在 MMLU、BBH、GSM8K、HumanEv

华尔街见闻获悉，在火山引擎的一份产品资料中，豆包模型团队公布了一期内部测试结果：在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上，Doubao-pro-4k的总分为76.8分，相比上一代模型云雀Skylark2的64.5分提升了19%，也优于同期测试的其他国产模型。此次评测在今年5月完成，主要包括豆包通用模型-pro、云雀Skylark2在内的九款国产大语言模型。除了云雀Skylark2以外，其他模型均为各家厂商最新发布的高级版本，通过API调用进行测试。据悉，豆包模型在5月15日刚刚推出，尚未加入到第三方机构测试中。预计未来一到两个月内，很多第三方评测机构将会陆续披露该模型的评测结果。（全天候科技）

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人