12个国产大模型大战高考数学意外炸出个大bug

12个国产大模型大战高考数学意外炸出个大bug继国产大模型挑战高考作文之后，是时候再战一下高考数学了。数学高考Ⅰ卷的题目，目前已经陆陆续续在网上有所公布（图片格式）。那么现在，是时候考验国产大模型们的数学能力了。有请“选手们”登场——Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。国产大模型vs高考数学选择题根据数学题目类型的不同，我们先来小试牛刀一下选择题。测评的方式是将题目（图片格式）“喂”给国产大模型们，要求它们给出相应题目的答案：查看题目，给出第1题到第8题的答案。接下来，我们就来一同看下国产大模型们的表现。Kimi通义千问豆包智谱清言百小应讯飞星火商量腾讯元宝海螺AI万知不难看出，很多国产大模型还未做数学题，先败在了AI识图这个步骤，无法生成答案。（PS：有几位选手测试时因为无法识别，未能完成答题，因此没有放出结果。）那么我们最后来看下“踢馆选手”——GPT-4o。国产大模型vs数学大题鉴于一些国产大模型AI识图有点困难，我们这次直接先把这次高考的大题题目文字给copy出来，再让它们作答：设n为正整数，数列(a1,a_2,cdots,a{4m+2})是公差不为0的等差数列。若从中抽去项(ai)和(a_j)(i<j)后剩余的(4m)项可被平均分为m组，且每组的4个数都能构成等差数列，则称数列(a_1,a_2,cdots,a{4m+2})是(i,j)-可分数列。(1)写出所有的(i,j)(1≤i<j≤6)，使得数列(a_1,a_2,a_3,a_4,a_5,a_6)是(i,j)-可分数列；(2)当(m=3)时，证明：数列(a1,a_2,cdots,a{13})是(2,13)-可分数列；(3)设(a1,a_2,cdots,a{4m+2})是(i,j)-可分数列。记数列(a1,a_2,cdots,a{4m+2})中任取两个数和i(i<j)，则数列是(i,j)-可分数列的概率为(p_n)，证明：(p_ngeqfrac{1}{8})。接下来，我们再来看下国产大模型们的表现。Kimi通义千问文心一言豆包智谱清言百小应讯飞星火商量腾讯元宝天工海螺AI万知最后，还是有请“踢馆选手”——GPT-4o。那么，你觉得国产大模型们，识图+解数学题，哪家比较好一点呢？最后，关于AI智能助手，这里也有一份最新用户数据分析报告供你参考：https://mp.weixin.qq.com/s/sYxbvown5qLBnEs7zIR6Bg...PC版：https://www.cnbeta.com.tw/articles/soft/1434131.htm手机版：https://m.cnbeta.com.tw/view/1434131.htm

在Telegram中查看

相关推荐

好未来自研数学大模型MathGPT上线公测

好未来自研数学大模型MathGPT上线公测MathGPT是面向全球数学爱好者和科研机构，以解题和讲题算法为核心的数学垂直领域的大模型，也是国内首个专为数学打造的大模型。用户使用MathGPT时，用文字或图片方式上传数学题，即可得到对话式的解答反馈，也可以通过“随机来一题”的按钮，随机生成数学题目并由系统给出解答。目前，MathGPT支持中文、英文版本的PC端和移动端体验。田密介绍，MathGPT汇集了好未来多年教育教研数据积累，专注于数学领域。千亿级大模型的训练、推理、部署框架，为模型赋予了强大能力。通过优质教育数据，实现题目计算、讲解、问答等多任务持续训练和有监督微调，呈现出卓越表现。此外，借助人类反馈对齐，还将进一步提升模型综合素养。MathGPT在解题准确率、稳定性及用户体验方面均有明显的优势。MathGPT官网显示，MathGPT的数学计算能力已覆盖小学、初中、高中的数学题，题目类型涵盖计算题、应用题、代数题等多个类型，还可以针对题目进行追问，暂未开放数学之外的问答互动。在MathGPT发布同时，好未来也在官网更新了一个具有代表性和挑战性的数学任务评测集，供全球人工智能专家、数学爱好者体验和测评。田密介绍，希望让MathGPT在数学教育领域发挥更大作用，好未来愿意把基于大规模、高质量的内容的千亿级大模型研发经验方法和业内分享，和行业共同进步。“好未来在数学的数据和业务上有20年的积累，有大量的教育数据的积累和持续生产教育数据的能力，所以选择做这个难而正确的事情。”田密称，好未来希望用自己在数学和AI上的多年积累，做好AI大模型时代的数学基础工作。据田密介绍，随着公测的顺利进行，MathGPT的解题能力将得到持续提升，基于MathGPT的产品级应用也正在加速研发中，将于近期发布。...PC版：https://www.cnbeta.com.tw/articles/soft/1379181.htm手机版：https://m.cnbeta.com.tw/view/1379181.htm

首个AI高考全卷评测结果发布：最高分303 数学全员不及格

首个AI高考全卷评测结果发布：最高分303数学全员不及格语数外三科加起来的满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名第一，为303分，OpenAI的GPT-4o排名第二，得分296分，上海人工智能实验室的书生·浦语2.0排名第三，三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型，以及来自OpenAI的闭源模型GPT-4o。实验室表示，因无法确定闭源模型的更新时间，为公平起见，此次评测没有纳入商用闭源模型，仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前（2024年4月-6月）开源，避免了“刷题风险”。从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分，来自书生·浦语2.0，其次是GPT-4o，得分73分。语文最高分是通义千问，英语最高分是GPT-4o。在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力，这是大模型普遍面临的难题，也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。上海人工智能实验室领军科学家林达华此前在采访中对第一财经介绍，复杂推理关系到落地应用时大模型的可靠性，例如在金融这样的场景下不能在数字上有差错，会对数学上的可靠性有较高的要求。另外随着大模型进入商用，若要分析一家公司的财报，甚至是工业领域要去分析一些技术文档，这时数学方面的计算能力就会成为一个壁垒。“现在很多大模型的应用场景是客服、聊天等等，在聊天场景一本正经胡说八道影响不太大，但它很难在非常严肃的商业场合去落地。”林达华此前表示。对于此次测试细节，上海人工智能实验室介绍，评测采用全国新课标I卷，“语数外”三科全卷测试，包括客观题与主观题。成绩由具备高考评卷经验的老师匿名人工判分，阅卷开始前，阅卷教师未被告知答卷均由模型生成，使阅卷教师完全以面对真实考生的标准评判回答效果。值得注意的是，大模型犯错误的方式和人类考生有差异，从实践上来看阅卷老师们不完全适应给大模型评分，因此存在有题目误判的可能。实验室表示，每个题目都邀请了至少三位老师评阅取均分，团队对分差较大的题目还进行了再次审核，贴近高考真实阅卷标准。实验室表示，在打分前，老师们并未被告知答案由大模型生成，但由于有的模型会存在完全不理解题意导致乱答、重复生成、回答更像解析而非解答的问题，老师们在阅卷过程中基本都会和团队确认这些情况是否是正常情况，团队会要求老师将离谱的错误直接视为答题错误，解析类型的回答以是否包含正确解题过程作为唯一准则。在完成所有大模型答卷的评卷工作后，阅卷教师被告知所评“考生”的真实身份为大模型。研究人员同时邀请各科教师对大模型表现进行了整体分析，为模型能力提升策略提供参考。语文方面，老师们认为，模型的现代文阅读理解能力普遍较强，但是不同模型的文言文阅读理解能力差距较大。大模型作文更像问答题，虽然有针对性但缺乏修饰，几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”，大模型尚无法完全理解。在数学试卷上，老师们发现，大模型的主观题回答相对凌乱，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强，但是无法在解题过程中灵活引用。英语则整体表现良好，但部分模型由于不适应题型，在七选五、完形填空等题型得分率较低。大模型英语作文普遍存在因超出字数限制而扣分的情况，而人类考生多因为字数不够扣分。此外，一些老师提出，由于全部回答没有卷面，所以在作文的评判上会存在1-2分的误差。...PC版：https://www.cnbeta.com.tw/articles/soft/1435334.htm手机版：https://m.cnbeta.com.tw/view/1435334.htm

国产AI大模型高考成绩单出炉：讯飞星火获得综合第一

国产AI大模型高考成绩单出炉：讯飞星火获得综合第一首先进行的是高考作文的评测。在搜狐科技的评测中，三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过50分的成绩位居前列，智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。而在潇湘晨报的“AI写作”评测中，讯飞星火不仅平均分位居首位，且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师，对国内五大AI大模型产品——百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分，经过四位阅卷老师的综合打分，讯飞星火以49分的平均分高居首位。给讯飞星火打出“全场最高分”56分的阅卷老师表示：“本文观点清晰，论述集中且层层推进，很多句子都简洁有力，颇有思想性。如果是某个学生写的，无疑是难得的佳作。”接下来是数学科目的较量。在搜狐科技的数学评测中，讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队，智谱清言、阿里通义则以50%的正确率位居第二梯队，其他大模型相对落后。在量子位的高考数学评测中，虽然没有给出详细成绩单，但展示了各家大模型详细的解题思路，交由网友打分，通过网友的投票打分可以看出，讯飞星火的“识图+解数学题”能力收到了最高认可，位居其后的分别是Kimi、通义千问、文心一言、豆包等。最后是高考物理的测试。在量子位的评测中，阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队，而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题，在成功识别的题目中，商量和文心一言的正确率为2/4，即正确率为28.6%；豆包、天工、智谱清言正确率为1/2，即正确率为14.3%。综合以上媒体在作文、数学、物理三门科目的成绩，我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名，通义千问、文心一言分别位列第二、第三名，而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。综合成绩：第一名：52.49讯飞星火第二名：46.08通义千问第三名：37.67文心一言第四名：34.68 Kimi第五名：33.57字节豆包第六名：31.92海螺AI第七名：30.61腾讯元宝第八名：30.28智谱清言第九名：21.56百川百小应...PC版：https://www.cnbeta.com.tw/articles/soft/1434322.htm手机版：https://m.cnbeta.com.tw/view/1434322.htm

中国AI大战高考物理第1题全对，第2题开始放飞

中国AI大战高考物理第1题全对，第2题开始放飞考题方面，先给大模型们来一份辽宁物理——多解释一嘴，新高考改革下大部分省份已经取消了文理分科，采用3+1+2或3+3的新模式，也就是物理化学生物现在是拆开考的。那么闲话少叙，我们有请参赛AI助手——通义千问、文心一言、Kimi、智谱清言、豆包、海螺AI、腾讯元宝、讯飞星火、天工、百小应、万知、商量。Round1：单选题这份物理卷共有10道选择题，其中1-7题为单选题，总计28分。1、3两题不涉及图片解析，人类考官直接把题目扔给了大模型：图片题给出的提示词统一为：查看图中题目，给出答案。在看详细答案之前，心急的看官们可以先扫一眼“考试”结果（测试方法比较简单粗暴，不能完全反映各AI真实水平，仅图一乐）：文心一言、豆包、天工、智谱清言和商量出现了不同程度读图失败的问题，在成功识别的题目中，商量和文心一言的正确率为2/4，豆包、天工、智谱清言正确率为1/2。接下来，就来看看大模型们的具体表现。单选题中，准确率最高的是第一题，一道有关标量矢量的概念题，参赛大模型百分百通过。到了第二题，大模型们就开始各有各的想法了。题目是：来看看成功得分的选手们的回答：通义千问文心一言海螺AI讯飞星火4位选手中，文心一言和讯飞星火进行了逐个答案的分析，海螺AI则最言简意赅，只回答了答案没给过程。另一道正确率比较高的题，是难度较大的第5题。但答对这道题的选手名单有所不同，讯飞星火、海螺AI依然在列，另外两位换成了Kimi和腾讯元宝。Kimi腾讯元宝和海螺AI一样，腾讯元宝也是惜字如金型（doge）。另外一个有意思的现象是，有的大模型选手尽管答案不对，但还挺有考试技巧的。比如ChatGLM，在面对双缝干涉实验中，“哪种说法可以使相邻两条亮纹中央间距变小”这个问题时，它一通分析觉得答案全错，但还是退而求其次挑了一个看上去相对正确的答案。Round2：多选题再来看看多选题（18分）的情况。p.s.在多选题作答过程中，人类考官在提示词中提醒了选手们这是“多选题”。根据多选题判卷规则，全部选对得满分，部分选对得一半分，有选错不得分，表现最佳的是海螺AI（2道题全对，1道题部分对），其次是通义千问、文心一言和万知（1道题全对，2道题部分对）。和单选题的情况类似，大模型们正确率最高的第8题是一道概念题：X射线光电子能谱仪是利用X光照射材料表面激发出光电子，并对光电子进行分析的科研仪器，用某一频率的X光照射某金属表面，逸出了光电子，若增加此X光的强度，则（）A.该金属的逸出功增大B.X光的光子能量不变C.逸出的光电子最大初动能增大D.单位时间逸出的光电子增多第9题有两位选手选中了全部正确选项：海螺AI和万知。来看看万知的具体回答：今日份的测试，就先到这里，你觉得大模型们的表现如何？至少在这份物理卷子46分的选择题里，还是有不少选手能拿到及格分了。...PC版：https://www.cnbeta.com.tw/articles/soft/1434214.htm手机版：https://m.cnbeta.com.tw/view/1434214.htm

上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。OpenCompass发

上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名第一，为303分，OpenAI的GPT-4o排名第二，得分296分，上海人工智能实验室的书生・浦语2.0排名第三，三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分。（第一财经）

GPT-4满分通过MIT本科数学考试这套提示词火了

GPT-4满分通过MIT本科数学考试这套提示词火了要知道，测出这个结果的不是别人，正是来自MIT和波士顿大学、康奈尔大学的研究团队。而且强如上一代王者GPT-3.5，在同样的测试中，只成功搞定了三分之一。论文一出，无数目光迅速被吸引过来。GPT-4这样看似开挂的行为，自然引发了不少网友的感慨。比GPT-3.5强好多，好耶！咱就是说，有没有可能以后不需要比GPT-4更强的模型，来解决学术问题了？还有网友展现了自己网上冲浪的“前沿性”，玩了个这两天YannLeCun吐槽“GPT-4智商不如狗”的梗：GPT-4开挂MIT考试具体来说，GPT-4这次是参与了这样一场测试：研究团队策划了一个数据集，其中包含4550个问题和解决方案。这4550个问题和解决方案，来自MIT数学系和EECS的学生获得本科学位，需要学习的课程问题集、期中考试和期末考试。包括：6-1：电气科学与工程；6-2：电气工程与计算机科学；6-3：计算机科学与工程；6-4：人工智能与决策；18-1：普通数学；18-2：应用数学；18-3：纯数学；18-C：数学与计算机科学。题目统统出自MIT的数据集，从中随机生成228个问题，不涉及图像和已有解决方案的问题。题目的难度等级由易到难依次为：练习、习题、期中考试、期末考试、实验和专题。按答案类型排序，题目的难度由易到难依次为：编程、开放、选择题、数值、表达式和图像。这一次，参与考试的不只有GPT-4和GPT-3.5，还有StableVicuna-13B、LLaMA-30B和LLaMA-60B。选择让这4个大模型作为考试参赛选手，原因是它们是“最先进的大语言模型”。通过表格里的数据可以看到，得分最高的是经过调优后的GPT-4，得分率100%；表现最一般的是LLaMA-30B，只拿下了30%的分数。值得关注的是，原始版本的GPT-4开箱即用，完全不经过调优，在本次MIT考试中也拿到了90%的分数。调优流程，包括Few-Shot+CoT+Self-critique+Experts。从最终考试成绩的表格数据可以看到，从左到右每增加一个环节，调优后的GPT-4得分都会更上一层楼。此外，研究团队还在提示框里进行了工程优化，具体的“咒语”如下：等等，评分人是GPT-4自己？看到这样的结果，不少网友心生感慨，LLM在数学考试上的进步，未免有些神速了哈。2年前，AI还在苦苦挣扎小学数学问题。类似“小明种了5棵柠檬树，每年从每棵树上得到6个柠檬，10年间他总共得到多少柠檬”这种。去年年初，MIT+哈佛+哥伦比亚大学+滑铁卢大学的联合研究表示，把数学问题转换成等价的编程问题，就可以让GPT-3的同门师兄弟——OpenAI的Codex掌握高数，达到MIT本科水平。学了6门MIT本科基础数学课里随机抽取的例题，6门课程每门随机出25道题，再加上一个ACT水平（美国高考）的数据集里的60道题。总计210道题，AI全部答对。不过有人提出，AI达到的“MIT本科水平”，实际是Codex在做语言题而非数学题——因为当时的评测中，Codex负责读写，并不包括求解。所以，这一回GPT-4表现奇佳，怎一个妙字了得~好了，知道你很着急夸它，但你先别着急夸它，因为很快有人发现了一些“诡异”。主要有2大槽点。第一个值得质疑一番的，就是OpenAI的训练数据集没有完全公布。这也就意味着，无法证明数据集中的4550个问题和解决方案，在GPT-4的训练集中不存在。换句话说，如果GPT-4在预训练阶段已经接触到了这次的考题们，那最终拿下完美得分，就没什么好惊喜的了。也难怪乎有网友毫不客气地yygq，认定GPT-4拿到这样的结果，一定是数据集已经包含在训练数据里了。第二个槽点，就是GPT-4最后100%的得分率，似乎哪里不对劲？？？定睛一看，在论文的第2.6节有一句很关键的点：团队在数据集上微调开源大模型，“给定问题Q、基本事实解S和LLM答案A，我们使用GPT-4自动对模型响应进行评分”。实际操作上，就是每个大模型生成这次考试的答案，然后派出GPT-4打分，分值在0-5之间。所以给GPT-4打出满分的，实际上是GPT-4自己。啊这……很难说没有王婆卖瓜自卖自夸的嫌疑。此外，关于要给GPT-4提供“好的提示”，才能让它达到满分成绩，也让许多人抱有微词。到底什么算“好的提示”呢？似乎无法定义。甚至有人喊着，应该把这些题丢给MIT数学和EECS的学生去做，并不断给他们“好的提示”，这样人类学生也能拿下100%的吧……OneMoreThing一个小小的彩蛋：整个测试中，基本上可以在笔记本电脑上部署运行的StableVicuna-13B，也有48%的得分率。这个成绩，不仅比模型更大的LLaMA-65B高出近10个百分点，就连MITfine-tuing过后的LLaMA-30B，还要高。让人不得不陷入一些关于模型规模与能力相关性的思考参考链接：[1]https：//arxiv.org/abs/2306.08997[2]https：//twitter.com/johnjnay/status/1669687958960586753[3]https：//twitter.com/arankomatsuzaki/status/1669528841629601792[4]https：//twitter.com/emollick/status/1669742473097228292...PC版：https://www.cnbeta.com.tw/articles/soft/1365793.htm手机版：https://m.cnbeta.com.tw/view/1365793.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人