12个国产大模型大战高考数学 意外炸出个大bug

12个国产大模型大战高考数学 意外炸出个大bug 继国产大模型挑战高考作文之后,是时候再战一下高考数学了。数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。那么现在,是时候考验国产大模型们的数学能力了。有请“选手们”登场Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。国产大模型 vs 高考数学选择题根据数学题目类型的不同,我们先来小试牛刀一下选择题。测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案:查看题目,给出第1题到第8题的答案。接下来,我们就来一同看下国产大模型们的表现。Kimi通义千问豆包智谱清言百小应讯飞星火商量腾讯元宝海螺AI万知不难看出,很多国产大模型还未做数学题,先败在了AI识图这个步骤,无法生成答案。(PS:有几位选手测试时因为无法识别,未能完成答题,因此没有放出结果。)那么我们最后来看下“踢馆选手”GPT-4o。国产大模型 vs 数学大题鉴于一些国产大模型AI识图有点困难,我们这次直接先把这次高考的大题题目文字给copy出来,再让它们作答:设n为正整数,数列 ( a1, a_2, cdots, a{4m+2} ) 是公差不为0的等差数列。若从中抽去项 ( ai ) 和 ( a_j ) (i < j) 后剩余的 ( 4m ) 项可被平均分为 m 组,且每组的 4 个数都能构成等差数列,则称数列 ( a_1, a_2, cdots, a{4m+2} ) 是 (i, j) - 可分数列。(1) 写出所有的 (i, j) (1 ≤ i < j ≤ 6),使得数列 ( a_1, a_2, a_3, a_4, a_5, a_6 ) 是 (i, j) - 可分数列;(2) 当 ( m = 3 ) 时,证明:数列 ( a1, a_2, cdots, a{13} ) 是 (2, 13) - 可分数列;(3) 设 ( a1, a_2, cdots, a{4m+2} ) 是 (i, j) - 可分数列。记数列 ( a1, a_2, cdots, a{4m+2} ) 中任取两个数和 i (i < j),则数列是 (i, j) - 可分数列的概率为 ( p_n ),证明:( p_n geq frac{1}{8} )。接下来,我们再来看下国产大模型们的表现。Kimi通义千问文心一言豆包智谱清言百小应讯飞星火商量腾讯元宝天工海螺AI万知最后,还是有请“踢馆选手”GPT-4o。那么,你觉得国产大模型们,识图+解数学题,哪家比较好一点呢?最后,关于AI智能助手,这里也有一份最新用户数据分析报告供你参考: ... PC版: 手机版:

相关推荐

封面图片

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一 首先进行的是高考作文的评测。在搜狐科技的评测中,三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过50分的成绩位居前列,智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。而在潇湘晨报的“AI写作”评测中,讯飞星火不仅平均分位居首位,且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师,对国内五大AI大模型产品百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分,经过四位阅卷老师的综合打分,讯飞星火以49分的平均分高居首位。给讯飞星火打出“全场最高分”56分的阅卷老师表示:“本文观点清晰,论述集中且层层推进,很多句子都简洁有力,颇有思想性。如果是某个学生写的,无疑是难得的佳作。”接下来是数学科目的较量。在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详细的解题思路,交由网友打分,通过网友的投票打分可以看出,讯飞星火的“识图+解数学题”能力收到了最高认可,位居其后的分别是Kimi、通义千问、文心一言、豆包等。最后是高考物理的测试。在量子位的评测中,阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队,而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,即正确率为28.6%;豆包、天工、智谱清言正确率为1/2,即正确率为14.3%。综合以上媒体在作文、数学、物理三门科目的成绩,我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名,通义千问、文心一言分别位列第二、第三名,而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。综合成绩:第一名:52.49 讯飞星火第二名:46.08 通义千问第三名:37.67 文心一言第四名:34.68  Kimi第五名:33.57 字节豆包第六名:31.92 海螺AI第七名:30.61 腾讯元宝第八名:30.28 智谱清言第九名:21.56 百川百小应 ... PC版: 手机版:

封面图片

首个AI高考全卷评测结果发布:最高分303 数学全员不及格

首个AI高考全卷评测结果发布:最高分303 数学全员不及格 语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型,以及来自OpenAI的闭源模型GPT-4o。实验室表示,因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前(2024年4月-6月)开源,避免了“刷题风险”。从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。上海人工智能实验室领军科学家林达华此前在采访中对第一财经介绍,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学上的可靠性有较高的要求。另外随着大模型进入商用,若要分析一家公司的财报,甚至是工业领域要去分析一些技术文档,这时数学方面的计算能力就会成为一个壁垒。“现在很多大模型的应用场景是客服、聊天等等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”林达华此前表示。对于此次测试细节,上海人工智能实验室介绍,评测采用全国新课标I卷,“语数外”三科全卷测试,包括客观题与主观题。成绩由具备高考评卷经验的老师匿名人工判分,阅卷开始前,阅卷教师未被告知答卷均由模型生成,使阅卷教师完全以面对真实考生的标准评判回答效果。值得注意的是,大模型犯错误的方式和人类考生有差异,从实践上来看阅卷老师们不完全适应给大模型评分,因此存在有题目误判的可能。实验室表示,每个题目都邀请了至少三位老师评阅取均分,团队对分差较大的题目还进行了再次审核,贴近高考真实阅卷标准。实验室表示,在打分前,老师们并未被告知答案由大模型生成,但由于有的模型会存在完全不理解题意导致乱答、重复生成、回答更像解析而非解答的问题,老师们在阅卷过程中基本都会和团队确认这些情况是否是正常情况,团队会要求老师将离谱的错误直接视为答题错误,解析类型的回答以是否包含正确解题过程作为唯一准则。在完成所有大模型答卷的评卷工作后,阅卷教师被告知所评“考生”的真实身份为大模型。研究人员同时邀请各科教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。语文方面,老师们认为,模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法 。多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。在数学试卷上,老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。英语则整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。此外,一些老师提出,由于全部回答没有卷面,所以在作文的评判上会存在1-2分的误差。 ... PC版: 手机版:

封面图片

中国AI大战高考物理 第1题全对,第2题开始放飞

中国AI大战高考物理 第1题全对,第2题开始放飞 考题方面,先给大模型们来一份辽宁物理多解释一嘴,新高考改革下大部分省份已经取消了文理分科,采用3+1+2或3+3的新模式,也就是物理化学生物现在是拆开考的。那么闲话少叙,我们有请参赛AI助手通义千问、文心一言、Kimi、智谱清言、豆包、海螺AI、腾讯元宝、讯飞星火、天工、百小应、万知、商量。Round 1:单选题这份物理卷共有10道选择题,其中1-7题为单选题,总计28分。1、3两题不涉及图片解析,人类考官直接把题目扔给了大模型:图片题给出的提示词统一为:查看图中题目,给出答案。在看详细答案之前,心急的看官们可以先扫一眼“考试”结果(测试方法比较简单粗暴,不能完全反映各AI真实水平,仅图一乐):文心一言、豆包、天工、智谱清言和商量出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,豆包、天工、智谱清言正确率为1/2。接下来,就来看看大模型们的具体表现。单选题中,准确率最高的是第一题,一道有关标量矢量的概念题,参赛大模型百分百通过。到了第二题,大模型们就开始各有各的想法了。题目是:来看看成功得分的选手们的回答:通义千问文心一言海螺AI讯飞星火4位选手中,文心一言和讯飞星火进行了逐个答案的分析,海螺AI则最言简意赅,只回答了答案没给过程。另一道正确率比较高的题,是难度较大的第5题。但答对这道题的选手名单有所不同,讯飞星火、海螺AI依然在列,另外两位换成了Kimi和腾讯元宝。Kimi腾讯元宝和海螺AI一样,腾讯元宝也是惜字如金型(doge)。另外一个有意思的现象是,有的大模型选手尽管答案不对,但还挺有考试技巧的。比如ChatGLM,在面对双缝干涉实验中,“哪种说法可以使相邻两条亮纹中央间距变小”这个问题时,它一通分析觉得答案全错,但还是退而求其次挑了一个看上去相对正确的答案。Round 2:多选题再来看看多选题(18分)的情况。p.s. 在多选题作答过程中,人类考官在提示词中提醒了选手们这是“多选题”。根据多选题判卷规则,全部选对得满分,部分选对得一半分,有选错不得分,表现最佳的是海螺AI(2道题全对,1道题部分对),其次是通义千问、文心一言和万知(1道题全对,2道题部分对)。和单选题的情况类似,大模型们正确率最高的第8题是一道概念题:X射线光电子能谱仪是利用X光照射材料表面激发出光电子,并对光电子进行分析的科研仪器,用某一频率的X光照射某金属表面,逸出了光电子,若增加此X光的强度,则( )A. 该金属的逸出功增大B. X光的光子能量不变C. 逸出的光电子最大初动能增大D. 单位时间逸出的光电子增多第9题有两位选手选中了全部正确选项:海螺AI和万知。来看看万知的具体回答:今日份的测试,就先到这里,你觉得大模型们的表现如何?至少在这份物理卷子46分的选择题里,还是有不少选手能拿到及格分了。 ... PC版: 手机版:

封面图片

四川绵阳一理科考生高考 710 分,其中数学满分,理综仅扣 3 分,外语 144 分,做到这样有多难?

四川绵阳一理科考生高考 710 分,其中数学满分,理综仅扣 3 分,外语 144 分,做到这样有多难? 辛雷的回答 在古代,大商村,参加古代秀才拔高考试的数学,考满分,其实很简单。 技巧之一,就是,碰到不会做的题目,尤其是数学最后一道大题,你就根据你的套路,煞有其事的写上一大堆解题过程,然后,然后,再才一个答案,写上。这样,就有一定概率,考满分。 因为,阅卷人,可能怀疑你的解法很独特,而你又恰巧猜对了答案,所以,你就得满分了。 在古代,大商村,参加古代秀才拔高考试,数学题目都会做,且,都最对,而且得满分,不是不可能,而是,根本就,不可能。 实际上,在古代,秀才拔高考试的数学考试,能考138分以上,就是极限了,再高,就是考运气了,满分,纯属扯淡。 在古代,大商村,古代秀才拔高考试,物理,比如浙郡和苏郡的物理,题目都会做,不是不可能,是绝对不可能。 在古代,大商村,古代秀才拔高考试,这两个郡的物理卷子,一般的,至少有两三道题目,就是错题,或则,属于诡异或精神病题,除了出题人本人,如果还有人能做对,基本只有一种可能,跟出题人得了同一类型的精神疾病。 在古代,大商村,秀才拔高考试的化学,物质推断题和提纯题,有时又长又难,难到没边,题目本身,是人的话,根本就不可能看懂。 在古代,大商村,秀才拔高考试,理综,如果满分300分,有考280分以上的,也就是只扣了20的的人,只有一种可能,精神疾病的类型,恰恰与物理、化学和生物,都是一个类型,当然,根据概率,这么多考生,还是存在的。 所以,家长和同学,高考,想放弃就放弃,千万不要为了那点破成绩,把大脑清晰度,甚至心脏,自己故意,严重伤害。 via 知乎热榜 (author: 辛雷)

封面图片

AI高考作文出圈 网友票选天工AI居首

AI高考作文出圈 网友票选天工AI居首 据悉,“天工AI”不仅在前不久发布了MoE混合专家天工3.0大模型,接连发布了全球首个公开技术架构的AI音乐SOTA,且近期又向社会开源了2千亿稀疏大模型。对于对普通用户,不仅具有强大的自然语言处理和生成能力,更能同时满足多种任务需求的能力,包括文案创作、知识问答、逻辑推演、数理推算、代码编程、AI画画、虚拟人聊天、情感陪伴等,俨然已经成长为一款多模态全能AI产品,这些长线的积累直接引索了天工AI在高考AI大战中备受关注,从而在此次【新课标1卷】人工智能的作文命题迅速走红。据悉,天工大模型由昆仑万维自研,是国内首个对标ChatGPT的双千亿级大语言模型,天工大模型通过自然语言与用户进行问答式交互,AI生成能力可满足文案创作、知识问答、代码编程、逻辑推演、数理推算等多元化需求。2023年11月3日,天工大模型通过备案,面向全社会开放服务。相关文章:文心一言通义千问们互评高考作文 友商们快打起来了微信回应被高考作文题Cue到:要求不超过150字 我只用10个字AI第一次高考:记得作文要龙头猪肚凤尾 ... PC版: 手机版:

封面图片

Google IO 将公布 PaLM 2 大模型

Google IO 将公布 PaLM 2 大模型 Google 将在年度开发者大会 Google I/O 上宣布它的新版通用大语言模型 PaLM 2。 PaLM 是 Google 在 2022 年 4 月宣布的大模型,有 5400 亿参数,Google AI 和 DeepMind 后在此基础上开发了一个用医学数据集微调的版本 Med-PaLM,它是首个在美国医师资格考试中获得及格分的 AI 模型。 在 5 月 10 日周三举行的开发者大会上 Google 宣布的 PaLM 2 将是该公司最先进的大模型,其内部代号为“Unified Language Model(统一语言模型)”,包含逾百种语言,能执行范围广泛编程和数学测试,以及创意写作测试和分析。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人