中国AI大战高考物理第1题全对，第2题开始放飞

中国AI大战高考物理第1题全对，第2题开始放飞考题方面，先给大模型们来一份辽宁物理——多解释一嘴，新高考改革下大部分省份已经取消了文理分科，采用3+1+2或3+3的新模式，也就是物理化学生物现在是拆开考的。那么闲话少叙，我们有请参赛AI助手——通义千问、文心一言、Kimi、智谱清言、豆包、海螺AI、腾讯元宝、讯飞星火、天工、百小应、万知、商量。Round1：单选题这份物理卷共有10道选择题，其中1-7题为单选题，总计28分。1、3两题不涉及图片解析，人类考官直接把题目扔给了大模型：图片题给出的提示词统一为：查看图中题目，给出答案。在看详细答案之前，心急的看官们可以先扫一眼“考试”结果（测试方法比较简单粗暴，不能完全反映各AI真实水平，仅图一乐）：文心一言、豆包、天工、智谱清言和商量出现了不同程度读图失败的问题，在成功识别的题目中，商量和文心一言的正确率为2/4，豆包、天工、智谱清言正确率为1/2。接下来，就来看看大模型们的具体表现。单选题中，准确率最高的是第一题，一道有关标量矢量的概念题，参赛大模型百分百通过。到了第二题，大模型们就开始各有各的想法了。题目是：来看看成功得分的选手们的回答：通义千问文心一言海螺AI讯飞星火4位选手中，文心一言和讯飞星火进行了逐个答案的分析，海螺AI则最言简意赅，只回答了答案没给过程。另一道正确率比较高的题，是难度较大的第5题。但答对这道题的选手名单有所不同，讯飞星火、海螺AI依然在列，另外两位换成了Kimi和腾讯元宝。Kimi腾讯元宝和海螺AI一样，腾讯元宝也是惜字如金型（doge）。另外一个有意思的现象是，有的大模型选手尽管答案不对，但还挺有考试技巧的。比如ChatGLM，在面对双缝干涉实验中，“哪种说法可以使相邻两条亮纹中央间距变小”这个问题时，它一通分析觉得答案全错，但还是退而求其次挑了一个看上去相对正确的答案。Round2：多选题再来看看多选题（18分）的情况。p.s.在多选题作答过程中，人类考官在提示词中提醒了选手们这是“多选题”。根据多选题判卷规则，全部选对得满分，部分选对得一半分，有选错不得分，表现最佳的是海螺AI（2道题全对，1道题部分对），其次是通义千问、文心一言和万知（1道题全对，2道题部分对）。和单选题的情况类似，大模型们正确率最高的第8题是一道概念题：X射线光电子能谱仪是利用X光照射材料表面激发出光电子，并对光电子进行分析的科研仪器，用某一频率的X光照射某金属表面，逸出了光电子，若增加此X光的强度，则（）A.该金属的逸出功增大B.X光的光子能量不变C.逸出的光电子最大初动能增大D.单位时间逸出的光电子增多第9题有两位选手选中了全部正确选项：海螺AI和万知。来看看万知的具体回答：今日份的测试，就先到这里，你觉得大模型们的表现如何？至少在这份物理卷子46分的选择题里，还是有不少选手能拿到及格分了。...PC版：https://www.cnbeta.com.tw/articles/soft/1434214.htm手机版：https://m.cnbeta.com.tw/view/1434214.htm

在Telegram中查看

相关推荐

12个国产大模型大战高考数学意外炸出个大bug

12个国产大模型大战高考数学意外炸出个大bug继国产大模型挑战高考作文之后，是时候再战一下高考数学了。数学高考Ⅰ卷的题目，目前已经陆陆续续在网上有所公布（图片格式）。那么现在，是时候考验国产大模型们的数学能力了。有请“选手们”登场——Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。国产大模型vs高考数学选择题根据数学题目类型的不同，我们先来小试牛刀一下选择题。测评的方式是将题目（图片格式）“喂”给国产大模型们，要求它们给出相应题目的答案：查看题目，给出第1题到第8题的答案。接下来，我们就来一同看下国产大模型们的表现。Kimi通义千问豆包智谱清言百小应讯飞星火商量腾讯元宝海螺AI万知不难看出，很多国产大模型还未做数学题，先败在了AI识图这个步骤，无法生成答案。（PS：有几位选手测试时因为无法识别，未能完成答题，因此没有放出结果。）那么我们最后来看下“踢馆选手”——GPT-4o。国产大模型vs数学大题鉴于一些国产大模型AI识图有点困难，我们这次直接先把这次高考的大题题目文字给copy出来，再让它们作答：设n为正整数，数列(a1,a_2,cdots,a{4m+2})是公差不为0的等差数列。若从中抽去项(ai)和(a_j)(i<j)后剩余的(4m)项可被平均分为m组，且每组的4个数都能构成等差数列，则称数列(a_1,a_2,cdots,a{4m+2})是(i,j)-可分数列。(1)写出所有的(i,j)(1≤i<j≤6)，使得数列(a_1,a_2,a_3,a_4,a_5,a_6)是(i,j)-可分数列；(2)当(m=3)时，证明：数列(a1,a_2,cdots,a{13})是(2,13)-可分数列；(3)设(a1,a_2,cdots,a{4m+2})是(i,j)-可分数列。记数列(a1,a_2,cdots,a{4m+2})中任取两个数和i(i<j)，则数列是(i,j)-可分数列的概率为(p_n)，证明：(p_ngeqfrac{1}{8})。接下来，我们再来看下国产大模型们的表现。Kimi通义千问文心一言豆包智谱清言百小应讯飞星火商量腾讯元宝天工海螺AI万知最后，还是有请“踢馆选手”——GPT-4o。那么，你觉得国产大模型们，识图+解数学题，哪家比较好一点呢？最后，关于AI智能助手，这里也有一份最新用户数据分析报告供你参考：https://mp.weixin.qq.com/s/sYxbvown5qLBnEs7zIR6Bg...PC版：https://www.cnbeta.com.tw/articles/soft/1434131.htm手机版：https://m.cnbeta.com.tw/view/1434131.htm

国产AI大模型高考成绩单出炉：讯飞星火获得综合第一

国产AI大模型高考成绩单出炉：讯飞星火获得综合第一首先进行的是高考作文的评测。在搜狐科技的评测中，三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过50分的成绩位居前列，智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。而在潇湘晨报的“AI写作”评测中，讯飞星火不仅平均分位居首位，且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师，对国内五大AI大模型产品——百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分，经过四位阅卷老师的综合打分，讯飞星火以49分的平均分高居首位。给讯飞星火打出“全场最高分”56分的阅卷老师表示：“本文观点清晰，论述集中且层层推进，很多句子都简洁有力，颇有思想性。如果是某个学生写的，无疑是难得的佳作。”接下来是数学科目的较量。在搜狐科技的数学评测中，讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队，智谱清言、阿里通义则以50%的正确率位居第二梯队，其他大模型相对落后。在量子位的高考数学评测中，虽然没有给出详细成绩单，但展示了各家大模型详细的解题思路，交由网友打分，通过网友的投票打分可以看出，讯飞星火的“识图+解数学题”能力收到了最高认可，位居其后的分别是Kimi、通义千问、文心一言、豆包等。最后是高考物理的测试。在量子位的评测中，阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队，而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题，在成功识别的题目中，商量和文心一言的正确率为2/4，即正确率为28.6%；豆包、天工、智谱清言正确率为1/2，即正确率为14.3%。综合以上媒体在作文、数学、物理三门科目的成绩，我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名，通义千问、文心一言分别位列第二、第三名，而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。综合成绩：第一名：52.49讯飞星火第二名：46.08通义千问第三名：37.67文心一言第四名：34.68 Kimi第五名：33.57字节豆包第六名：31.92海螺AI第七名：30.61腾讯元宝第八名：30.28智谱清言第九名：21.56百川百小应...PC版：https://www.cnbeta.com.tw/articles/soft/1434322.htm手机版：https://m.cnbeta.com.tw/view/1434322.htm

AI第一次高考：记得作文要龙头猪肚凤尾

AI第一次高考：记得作文要龙头猪肚凤尾本篇文章将深入探讨各大AI模型在高考作文写作中的表现，以期揭示AI写作能力的现状和未来潜力。老师一再强调：“题好一半文，龙头配凤尾，猪肚有血肉，文采满篇飞”呀，同学们。AI押题在高考前，我们上传了广东2009年到2023年高考作文题集合，让kimi、豆包、通义千问、文心一言、智谱清言、腾讯元宝AI以及gpt4o结合出题逻辑和社会时事推测3个选题。高考广东新课标卷为人工智能，即AI压中选定试卷选题方向。今晚还会快马加鞭压理综大题，欢迎加微信aitechreview一起唠嗑。根据近年高考试卷改革，广东16年以后用的是新课标1卷，因此在此选择考卷为是广东高考语文题目，所以在细范围内AI的推测更精准。作文押题年年有，今年用AI押题，出其的统一，并且精准命中。继让AI押题高考作文获得了极高的准确率，我们继续让AI参与本次高考的作文写作。1ChatGPT4在中文领域方面，ChatGPT一直没有特别亮眼的地方，比如在作文写作上，甚至没有一个醒目的标题。2Claude3在学术内容上，Claude一直表现的比较出众，这篇作文，似乎有可能会在老师的眼里获得高分。3豆包豆包的文笔有真人写作的味道了，但内容总是让人“似曾相识”，可能是语料问题，比如这次写出来的立意也有点像洗稿。4元宝元宝是2024年性能上的黑马，只能说不愧是鹅厂的，上限我们不敢说，但是性能实力是保底的。不过这篇作文太互联网了，不必那么给自己打鸡血的。5通义千问这里的每大段的“首先、其次、再者”......或许AI有自己眼中“龙头猪肚凤尾”。6文心一言文心一言的写作是唯二我读了三遍的，因为它写的东西我挑不出什么毛病，但同时也说不上有什么好，或许这就是AI的“可靠”之处，它可以没有什么创新，但真的挑不出什么错误。7智谱清言毕竟是清华系的，不知道这篇作文如果真的参加了打分，最后能不能考上清华。这篇文章的“首先、其次、再次、最后、综上所述”，不知是否就是现在最标准的获分方式。8天工天工哪怕开卷考也被取消了考试资格，引导了半天只有“全网搜索”这个能力，对此保留一切评论。9Kimi作为目前社会上文书工作排名第一的Kimi，整理文字是一把好手，纯写作方面也是可圈可点，也是走了一回“首先、其次、再者、最后、综上所述”的手法。10讯飞星火讯飞星火这次的表现超过了以往的平均分数，在没有更多引导的情况下，给出了思考和反省的环节。但毕竟仍局限在AI的训练内容，写出来的还是以往文章的观点。但基于“记忆力无穷”的优势，讯飞把这些观点糅合的书写了出来。11跃问就和大部分老师高考阅卷一样，越看到最后，越觉得AI的写作没有什么出彩的地方，但这更符合现实。跃问的答卷也是一则高分答案，但所有AI一遍又一遍的“首先、其次”，已经让人类反应过来了，人或者机器在写作时，都会受到“规则”的影响，创作，的确不是一件容易的事。12百小应百小应所写的内容说不上是最出彩的，但它理解了“让它写作文”这件事，给了一个标准的书名号标题，在内容中，与大部分优秀答案一样，加入了思考，引入了话题。或许创作这件事，在现在的互联网社会中，已经很难分清是“问题有没有变少，答案是否真的越来越多”。AI写出的，或许不是作文虽然通过对比不同AI模型在高考作文中的表现，我们可以清晰地看到每种模型的优势，但同时也看到了并不是每个AI都是以万能为前提进行开发训练的。它们有缺陷，它们有优势，它们目前仍然是需要人类自身去利用才能显现出价值的工具目前的AI写作还存在大量的不足。当然，我们也相信在不久的将来，随着技术的进步，AI将能够在写作上、乃至更多的领域展现出更加出色的能力。尽管AI能用，但这不是我们完全依赖他们的理由。...PC版：https://www.cnbeta.com.tw/articles/soft/1433979.htm手机版：https://m.cnbeta.com.tw/view/1433979.htm

AI高考作文出圈网友票选天工AI居首

AI高考作文出圈网友票选天工AI居首据悉，“天工AI”不仅在前不久发布了MoE混合专家天工3.0大模型，接连发布了全球首个公开技术架构的AI音乐SOTA，且近期又向社会开源了2千亿稀疏大模型。对于对普通用户，不仅具有强大的自然语言处理和生成能力，更能同时满足多种任务需求的能力，包括文案创作、知识问答、逻辑推演、数理推算、代码编程、AI画画、虚拟人聊天、情感陪伴等，俨然已经成长为一款多模态全能AI产品，这些长线的积累直接引索了天工AI在高考AI大战中备受关注，从而在此次【新课标1卷】人工智能的作文命题迅速走红。据悉，天工大模型由昆仑万维自研，是国内首个对标ChatGPT的双千亿级大语言模型，天工大模型通过自然语言与用户进行问答式交互，AI生成能力可满足文案创作、知识问答、代码编程、逻辑推演、数理推算等多元化需求。2023年11月3日，天工大模型通过备案，面向全社会开放服务。相关文章:文心一言通义千问们互评高考作文友商们快打起来了微信回应被高考作文题Cue到：要求不超过150字我只用10个字AI第一次高考：记得作文要龙头猪肚凤尾...PC版：https://www.cnbeta.com.tw/articles/soft/1434032.htm手机版：https://m.cnbeta.com.tw/view/1434032.htm

Google Bard大更新我们用GPT-4给它出了20道题

GoogleBard大更新我们用GPT-4给它出了20道题发布以来就饱受争议的Bard，如今能在数理逻辑领域，与GPT-4一较高下吗？01.三个更新点，做数学题是重点为了让用户更方便的了解Bard更新变化，Google上线了experimentupdates（实验更新）界面，展示Bard的最新消息。网址如下：https://bard.google.com/updates相比其他厂商“提高系统稳定性，优化系统流畅度”的更新对联，Bard不仅告诉你更新了什么，还告诉你为什么更新。Google表示，这是为了让用户更快的进行测试、提供反馈。顺着更新公告往下看，“Googleit”是这次的第一个功能更新，当你问过Bard后，可以在答案下方看到“Googleit”的按钮，点击后Bard会生成几个相关主题，以便你使用Google进行更多元的搜索。这样一来，Google搜索就变成了Bard的补充，如果在未来，Bard完全替代前者我也不会感到意外。不过，Googleit在提取复杂问题的主题时准确性还不够高，比如在我询问奥数题时，Googleit的主题几乎没有价值。最后，也是最大的更新，Bard的数学和逻辑能力得到了升级，以前一道123456*654321就开始乱说的大语言模型终于站起了身，开始实践“学好数理化，走遍网络都不怕”的道理。光说不练假把式，Bard的数理能力够不够强，我们给它出了20道题，看看它的表现如何。02.GPT-4出了20道题，Bard满分第二题答案有误，应为（2,-1）我们用GPT-4整理了20道数学、逻辑类问题，用于测试Bard的数理能力。先不说对不对，Bard的反应速度着实很快，即使是加速后的GPT-3.5也不是它的对手。先来看看Bard的表现，Bard不仅完全答对了所有题目，还给出了详细的解题过程。ChatGPT的表现也不错，数学题全对，逻辑题只错了一个。我们也把同样的问题翻译成中文去提问了百度的文心一言和阿里的通义千问，10道数学题，通义千问仅对1题，文心一言则对了4题；10道逻辑判断，通义千问3题正确略胜一筹，文心一言2题正确屈居第二。不得不说，数理计算对大语言模型来说，门槛确实比较高。10*3.14=314无中生有的兔子从我们简短的测试来看，Bard的表现相比它刚发布时确实有了显著的提升，在回答问题的逻辑性和正确性上已经逐渐赶上了GPT-3.5。比ChatGPT表现更好的是，Bard在回答问题时还会加入引用信源，降低了编造事实的可能。目前Google对Bard的试用申请似乎放松了不少，只要申请加入Waitlist后再刷新几次界面，就能马上体验Bard。感兴趣的朋友可以在下方地址体验。https://bard.google.com/如果你的试用申请一直都没通过，也不用着急。Google的CEOSundarPichai最近在接受采访时透露，Google计划将Bard整合到搜索引擎中，以应对ChatGPT等聊天机器人带来的竞争压力和更为广泛的商业问题。未来Google应该会像Bing那样开放一个聊天搜索界面，直接在搜索引擎就能调用Bard。目前Google并没有给出明确的时间表，也许在5月10日召开的GoogleI/O2023大会上会透露出更多的信息。AI不会画手、AI不会做数学题，这些问题已经慢慢成为了历史，那么问题来了，AI的下一个突破点，又会在哪里呢？...PC版：https://www.cnbeta.com.tw/articles/soft/1354389.htm手机版：https://m.cnbeta.com.tw/view/1354389.htm

中国宣布旗下AI模型不输外国-但仍输给自己的文字狱‼

中国宣布旗下AI模型不输外国-但仍输给自己的文字狱‼中国百度在17日对外表示，旗下AI聊天机器人「文心一言」不输ChatGTP4，并比过去的版本有著突破性的更新‼然而中国网友去测试时，发现AI回答的内容会因为涉及敏感词而被摒弃，并且会出现红字「内容可能违反国家政策，请重新输入」‼被笑称再高的科技也无法高过党的那双手‼By#百度#中国#文心一言#chatgpt#文字审查

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人