首个AI高考全卷评测结果发布:最高分303 数学全员不及格

首个AI高考全卷评测结果发布:最高分303 数学全员不及格 语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型,以及来自OpenAI的闭源模型GPT-4o。实验室表示,因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前(2024年4月-6月)开源,避免了“刷题风险”。从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。上海人工智能实验室领军科学家林达华此前在采访中对第一财经介绍,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学上的可靠性有较高的要求。另外随着大模型进入商用,若要分析一家公司的财报,甚至是工业领域要去分析一些技术文档,这时数学方面的计算能力就会成为一个壁垒。“现在很多大模型的应用场景是客服、聊天等等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”林达华此前表示。对于此次测试细节,上海人工智能实验室介绍,评测采用全国新课标I卷,“语数外”三科全卷测试,包括客观题与主观题。成绩由具备高考评卷经验的老师匿名人工判分,阅卷开始前,阅卷教师未被告知答卷均由模型生成,使阅卷教师完全以面对真实考生的标准评判回答效果。值得注意的是,大模型犯错误的方式和人类考生有差异,从实践上来看阅卷老师们不完全适应给大模型评分,因此存在有题目误判的可能。实验室表示,每个题目都邀请了至少三位老师评阅取均分,团队对分差较大的题目还进行了再次审核,贴近高考真实阅卷标准。实验室表示,在打分前,老师们并未被告知答案由大模型生成,但由于有的模型会存在完全不理解题意导致乱答、重复生成、回答更像解析而非解答的问题,老师们在阅卷过程中基本都会和团队确认这些情况是否是正常情况,团队会要求老师将离谱的错误直接视为答题错误,解析类型的回答以是否包含正确解题过程作为唯一准则。在完成所有大模型答卷的评卷工作后,阅卷教师被告知所评“考生”的真实身份为大模型。研究人员同时邀请各科教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。语文方面,老师们认为,模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法 。多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。在数学试卷上,老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。英语则整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。此外,一些老师提出,由于全部回答没有卷面,所以在作文的评判上会存在1-2分的误差。 ... PC版: 手机版:

相关推荐

封面图片

【资料】《申老师高考数学 2025 新高考高中数学题型总结 (含压轴系列)》|简介:申精心编写的高考数学资料,针对 2025 年

【资料】《申老师高考数学 2025 新高考高中数学题型总结 (含压轴系列)》|简介:申老师精心编写的高考数学资料,针对 2025 年新高考。全面总结了高中数学的各类题型,尤其是对压轴题进行了深入分析和讲解。通过对题型的梳理和解题方法的传授,帮助考生熟悉高考数学命题规律,掌握解题技巧,提高数学成绩。|标签:#高考数学#题型总结#2025 新高考|文件大小:NG|链接:

封面图片

12个国产大模型大战高考数学 意外炸出个大bug

12个国产大模型大战高考数学 意外炸出个大bug 继国产大模型挑战高考作文之后,是时候再战一下高考数学了。数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。那么现在,是时候考验国产大模型们的数学能力了。有请“选手们”登场Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。国产大模型 vs 高考数学选择题根据数学题目类型的不同,我们先来小试牛刀一下选择题。测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案:查看题目,给出第1题到第8题的答案。接下来,我们就来一同看下国产大模型们的表现。Kimi通义千问豆包智谱清言百小应讯飞星火商量腾讯元宝海螺AI万知不难看出,很多国产大模型还未做数学题,先败在了AI识图这个步骤,无法生成答案。(PS:有几位选手测试时因为无法识别,未能完成答题,因此没有放出结果。)那么我们最后来看下“踢馆选手”GPT-4o。国产大模型 vs 数学大题鉴于一些国产大模型AI识图有点困难,我们这次直接先把这次高考的大题题目文字给copy出来,再让它们作答:设n为正整数,数列 ( a1, a_2, cdots, a{4m+2} ) 是公差不为0的等差数列。若从中抽去项 ( ai ) 和 ( a_j ) (i < j) 后剩余的 ( 4m ) 项可被平均分为 m 组,且每组的 4 个数都能构成等差数列,则称数列 ( a_1, a_2, cdots, a{4m+2} ) 是 (i, j) - 可分数列。(1) 写出所有的 (i, j) (1 ≤ i < j ≤ 6),使得数列 ( a_1, a_2, a_3, a_4, a_5, a_6 ) 是 (i, j) - 可分数列;(2) 当 ( m = 3 ) 时,证明:数列 ( a1, a_2, cdots, a{13} ) 是 (2, 13) - 可分数列;(3) 设 ( a1, a_2, cdots, a{4m+2} ) 是 (i, j) - 可分数列。记数列 ( a1, a_2, cdots, a{4m+2} ) 中任取两个数和 i (i < j),则数列是 (i, j) - 可分数列的概率为 ( p_n ),证明:( p_n geq frac{1}{8} )。接下来,我们再来看下国产大模型们的表现。Kimi通义千问文心一言豆包智谱清言百小应讯飞星火商量腾讯元宝天工海螺AI万知最后,还是有请“踢馆选手”GPT-4o。那么,你觉得国产大模型们,识图+解数学题,哪家比较好一点呢?最后,关于AI智能助手,这里也有一份最新用户数据分析报告供你参考: ... PC版: 手机版:

封面图片

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一 首先进行的是高考作文的评测。在搜狐科技的评测中,三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过50分的成绩位居前列,智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。而在潇湘晨报的“AI写作”评测中,讯飞星火不仅平均分位居首位,且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师,对国内五大AI大模型产品百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分,经过四位阅卷老师的综合打分,讯飞星火以49分的平均分高居首位。给讯飞星火打出“全场最高分”56分的阅卷老师表示:“本文观点清晰,论述集中且层层推进,很多句子都简洁有力,颇有思想性。如果是某个学生写的,无疑是难得的佳作。”接下来是数学科目的较量。在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详细的解题思路,交由网友打分,通过网友的投票打分可以看出,讯飞星火的“识图+解数学题”能力收到了最高认可,位居其后的分别是Kimi、通义千问、文心一言、豆包等。最后是高考物理的测试。在量子位的评测中,阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队,而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,即正确率为28.6%;豆包、天工、智谱清言正确率为1/2,即正确率为14.3%。综合以上媒体在作文、数学、物理三门科目的成绩,我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名,通义千问、文心一言分别位列第二、第三名,而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。综合成绩:第一名:52.49 讯飞星火第二名:46.08 通义千问第三名:37.67 文心一言第四名:34.68  Kimi第五名:33.57 字节豆包第六名:31.92 海螺AI第七名:30.61 腾讯元宝第八名:30.28 智谱清言第九名:21.56 百川百小应 ... PC版: 手机版:

封面图片

四川绵阳一理科考生高考 710 分,其中数学满分,理综仅扣 3 分,外语 144 分,做到这样有多难?

四川绵阳一理科考生高考 710 分,其中数学满分,理综仅扣 3 分,外语 144 分,做到这样有多难? 辛雷的回答 在古代,大商村,参加古代秀才拔高考试的数学,考满分,其实很简单。 技巧之一,就是,碰到不会做的题目,尤其是数学最后一道大题,你就根据你的套路,煞有其事的写上一大堆解题过程,然后,然后,再才一个答案,写上。这样,就有一定概率,考满分。 因为,阅卷人,可能怀疑你的解法很独特,而你又恰巧猜对了答案,所以,你就得满分了。 在古代,大商村,参加古代秀才拔高考试,数学题目都会做,且,都最对,而且得满分,不是不可能,而是,根本就,不可能。 实际上,在古代,秀才拔高考试的数学考试,能考138分以上,就是极限了,再高,就是考运气了,满分,纯属扯淡。 在古代,大商村,古代秀才拔高考试,物理,比如浙郡和苏郡的物理,题目都会做,不是不可能,是绝对不可能。 在古代,大商村,古代秀才拔高考试,这两个郡的物理卷子,一般的,至少有两三道题目,就是错题,或则,属于诡异或精神病题,除了出题人本人,如果还有人能做对,基本只有一种可能,跟出题人得了同一类型的精神疾病。 在古代,大商村,秀才拔高考试的化学,物质推断题和提纯题,有时又长又难,难到没边,题目本身,是人的话,根本就不可能看懂。 在古代,大商村,秀才拔高考试,理综,如果满分300分,有考280分以上的,也就是只扣了20的的人,只有一种可能,精神疾病的类型,恰恰与物理、化学和生物,都是一个类型,当然,根据概率,这么多考生,还是存在的。 所以,家长和同学,高考,想放弃就放弃,千万不要为了那点破成绩,把大脑清晰度,甚至心脏,自己故意,严重伤害。 via 知乎热榜 (author: 辛雷)

封面图片

清华大模型报告:文心一言中文理解、数学等多项能力全球第一

清华大模型报告:文心一言中文理解、数学等多项能力全球第一 最近,由清华大学基础模型研究中心联合中关村实验室研制的SuperBench 大模型综合能力评测框架,正式对外发布 2024 年 3 月版《SuperBench 大模型综合能力评测报告》。评测共包含了 14 个海内外具有代表性的模型,在人类对齐能力评测中,文心一言 4.0 表现位居国内第一,其中在中文推理、中文语言等评测上,文心一言分数领先,和其他模型拉开明显差距,中文理解上,文心一言 4.0 领先优势明显,领先第二名 GLM-4 0.41 分,GPT-4 系列模型表现较差,排在中下游,并且和第一名文心一言 4.0 分差超过 1 分。在语义理解中的数学能力上,文心一言 4.0 与 Claude-3 并列全球第一; GPT-4 系列模型位列第四五,其他模型得分在 55 分附近较为集中,明显落后第一梯队;而在语义理解中的阅读理解能力上,文心一言 4.0 超过 GPT-4 Turbo、Claude-3 以及 GLM-4 拿下榜首。在安全性评测上,国内模型文心一言 4.0 拿下最高分(89.1 分),Claude-3 仅列第四。 来源:财经慢报频道

封面图片

Scale AI发布首个大语言模型排行榜 对特定领域的AI模型性能进行排名

Scale AI发布首个大语言模型排行榜 对特定领域的AI模型性能进行排名 SEAL 排行榜显示,OpenAI 的 GPT 系列 LLM 在其用于人工智能模型排名的四个初始领域中的三个领域排名第一,Anthropic PBC 广受欢迎的 Claude 3 Opus 在第四个领域排名第一。Google LLC 的 Gemini 模型也表现出色,在其中几个领域与 GPT 模型并列第一。Scale AI表示,它之所以创建SEAL排行榜,是因为现在有数以百计的LLM可供公司使用,而人工智能的表现却缺乏透明度。这些排行榜由 Scale AI 的安全、评估和对齐实验室(Safety, Evaluations, and Alignment Lab)开发,并声称通过拒绝透露其用于评估 LLM 的提示的性质来保持中立性和完整性。该公司指出,虽然也有其他对LLM进行排名的努力,如MLCommons的基准和斯坦福HAI的透明度指数,但其在人工智能训练数据方面的专业知识意味着它在克服人工智能研究人员所面临的一些挑战方面具有独特的优势。例如,Scale AI指出,MLCommon的基准是公开的,因此公司可以对其模型进行专门训练,以准确响应他们使用的提示。SEAL 开发了私有的评估数据集,以保持其排名的完整性,据说其测试是由经过验证的领域专家创建的。此外,所使用的提示和给出的排名都经过仔细评估,以确保其可信度,同时通过公布所使用评估方法的明确解释来确保透明度。Scale AI 表示,在 Scale Coding 领域,每个模型都要在随机选择的提示上与评估中的其他模型进行至少 50 次比较,以确保结果的准确性。编码评估试图评估每个模型生成计算机代码的能力,排行榜显示,OpenAI 的 GPT-4 Turbo Preview 和 GPT-4o 模型与Google的 Gemini 1.5 Pro(I/O 后)并列第一。之所以将它们并列第一,是因为 Scale AI 只声称其评估分数的置信度为 95%,而且前三名之间的差距很小。尽管如此,GPT-4 Turbo Preview 似乎略胜一筹,获得了 1155 分,GPT-4o 以 1144 分位居第二,Gemini 1.5 Pro(Post I/O)获得了 1112 分。在多语言领域,GPT-4o 和 Gemini 1.5 Pro(Post I/O)并列第一,得分分别为 1139 分和 1129 分,GPT-4 Turbo 和 Gemini Pro 1.5(Pre I/O)紧随其后,并列第三。GPT-4o 在"指令跟踪"领域也名列前茅,获得 88.57 分,GPT-4 Turbo Preview 以 87.64 分名列第二。结果表明,Google在这一领域仍需努力,因为 OpenAI 最接近的竞争对手是 Meta Platforms 公司的开源 Llama 3 70b Instruct(得分 85.55)和 Mistral 公司的 Mistral Large Latest LLM(得分 85.34)。最后,Scale AI 测试了 LLM 的数学能力。事实证明,Anthropic 的 Claude 3 Opus 以 95.19 的高分拔得头筹,无可争议地获得了第一名,超过了 95.10 的 GPT-4 Turbo Preview 和 94.85 的 GPT-4o。这些比较很有意思,但似乎还不能说明全部问题,因为有很多备受瞩目的龙8国际娱乐城似乎没有被纳入评估范围。例如,AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和Command LLM在所有四项评估中都明显缺席,埃隆-马斯克(Elon Musk)的生成式人工智能初创公司xAI Corp.建立的Grok模型也是如此。好消息是,Scale AI 可能会解决LLM排行榜不完整的问题。该公司表示,它打算每年多次更新排行榜,以确保其与时俱进。它将在"可用时"添加新的前沿模型。此外,它还计划在排行榜上添加新的领域,力争成为最值得信赖的大模型第三方评估机构。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人