中国AI大战高考物理 第1题全对,第2题开始放飞

中国AI大战高考物理 第1题全对,第2题开始放飞 考题方面,先给大模型们来一份辽宁物理多解释一嘴,新高考改革下大部分省份已经取消了文理分科,采用3+1+2或3+3的新模式,也就是物理化学生物现在是拆开考的。那么闲话少叙,我们有请参赛AI助手通义千问、文心一言、Kimi、智谱清言、豆包、海螺AI、腾讯元宝、讯飞星火、天工、百小应、万知、商量。Round 1:单选题这份物理卷共有10道选择题,其中1-7题为单选题,总计28分。1、3两题不涉及图片解析,人类考官直接把题目扔给了大模型:图片题给出的提示词统一为:查看图中题目,给出答案。在看详细答案之前,心急的看官们可以先扫一眼“考试”结果(测试方法比较简单粗暴,不能完全反映各AI真实水平,仅图一乐):文心一言、豆包、天工、智谱清言和商量出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,豆包、天工、智谱清言正确率为1/2。接下来,就来看看大模型们的具体表现。单选题中,准确率最高的是第一题,一道有关标量矢量的概念题,参赛大模型百分百通过。到了第二题,大模型们就开始各有各的想法了。题目是:来看看成功得分的选手们的回答:通义千问文心一言海螺AI讯飞星火4位选手中,文心一言和讯飞星火进行了逐个答案的分析,海螺AI则最言简意赅,只回答了答案没给过程。另一道正确率比较高的题,是难度较大的第5题。但答对这道题的选手名单有所不同,讯飞星火、海螺AI依然在列,另外两位换成了Kimi和腾讯元宝。Kimi腾讯元宝和海螺AI一样,腾讯元宝也是惜字如金型(doge)。另外一个有意思的现象是,有的大模型选手尽管答案不对,但还挺有考试技巧的。比如ChatGLM,在面对双缝干涉实验中,“哪种说法可以使相邻两条亮纹中央间距变小”这个问题时,它一通分析觉得答案全错,但还是退而求其次挑了一个看上去相对正确的答案。Round 2:多选题再来看看多选题(18分)的情况。p.s. 在多选题作答过程中,人类考官在提示词中提醒了选手们这是“多选题”。根据多选题判卷规则,全部选对得满分,部分选对得一半分,有选错不得分,表现最佳的是海螺AI(2道题全对,1道题部分对),其次是通义千问、文心一言和万知(1道题全对,2道题部分对)。和单选题的情况类似,大模型们正确率最高的第8题是一道概念题:X射线光电子能谱仪是利用X光照射材料表面激发出光电子,并对光电子进行分析的科研仪器,用某一频率的X光照射某金属表面,逸出了光电子,若增加此X光的强度,则( )A. 该金属的逸出功增大B. X光的光子能量不变C. 逸出的光电子最大初动能增大D. 单位时间逸出的光电子增多第9题有两位选手选中了全部正确选项:海螺AI和万知。来看看万知的具体回答:今日份的测试,就先到这里,你觉得大模型们的表现如何?至少在这份物理卷子46分的选择题里,还是有不少选手能拿到及格分了。 ... PC版: 手机版:

相关推荐

封面图片

12个国产大模型大战高考数学 意外炸出个大bug

12个国产大模型大战高考数学 意外炸出个大bug 继国产大模型挑战高考作文之后,是时候再战一下高考数学了。数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。那么现在,是时候考验国产大模型们的数学能力了。有请“选手们”登场Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。国产大模型 vs 高考数学选择题根据数学题目类型的不同,我们先来小试牛刀一下选择题。测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案:查看题目,给出第1题到第8题的答案。接下来,我们就来一同看下国产大模型们的表现。Kimi通义千问豆包智谱清言百小应讯飞星火商量腾讯元宝海螺AI万知不难看出,很多国产大模型还未做数学题,先败在了AI识图这个步骤,无法生成答案。(PS:有几位选手测试时因为无法识别,未能完成答题,因此没有放出结果。)那么我们最后来看下“踢馆选手”GPT-4o。国产大模型 vs 数学大题鉴于一些国产大模型AI识图有点困难,我们这次直接先把这次高考的大题题目文字给copy出来,再让它们作答:设n为正整数,数列 ( a1, a_2, cdots, a{4m+2} ) 是公差不为0的等差数列。若从中抽去项 ( ai ) 和 ( a_j ) (i < j) 后剩余的 ( 4m ) 项可被平均分为 m 组,且每组的 4 个数都能构成等差数列,则称数列 ( a_1, a_2, cdots, a{4m+2} ) 是 (i, j) - 可分数列。(1) 写出所有的 (i, j) (1 ≤ i < j ≤ 6),使得数列 ( a_1, a_2, a_3, a_4, a_5, a_6 ) 是 (i, j) - 可分数列;(2) 当 ( m = 3 ) 时,证明:数列 ( a1, a_2, cdots, a{13} ) 是 (2, 13) - 可分数列;(3) 设 ( a1, a_2, cdots, a{4m+2} ) 是 (i, j) - 可分数列。记数列 ( a1, a_2, cdots, a{4m+2} ) 中任取两个数和 i (i < j),则数列是 (i, j) - 可分数列的概率为 ( p_n ),证明:( p_n geq frac{1}{8} )。接下来,我们再来看下国产大模型们的表现。Kimi通义千问文心一言豆包智谱清言百小应讯飞星火商量腾讯元宝天工海螺AI万知最后,还是有请“踢馆选手”GPT-4o。那么,你觉得国产大模型们,识图+解数学题,哪家比较好一点呢?最后,关于AI智能助手,这里也有一份最新用户数据分析报告供你参考: ... PC版: 手机版:

封面图片

AI第一次高考:记得作文要龙头猪肚凤尾

AI第一次高考:记得作文要龙头猪肚凤尾 本篇文章将深入探讨各大AI模型在高考作文写作中的表现,以期揭示AI写作能力的现状和未来潜力。老师一再强调:“题好一半文,龙头配凤尾,猪肚有血肉,文采满篇飞”呀,同学们。AI 押题在高考前,我们上传了广东2009年到2023年高考作文题集合,让kimi、豆包、通义千问、文心一言、智谱清言、腾讯元宝AI以及gpt4o结合出题逻辑和社会时事推测3个选题。高考广东新课标卷为人工智能,即AI压中选定试卷选题方向。今晚还会快马加鞭压理综大题,欢迎加微信aitechreview一起唠嗑。根据近年高考试卷改革,广东16年以后用的是新课标1卷,因此在此选择考卷为是广东高考语文题目,所以在细范围内AI的推测更精准。作文押题年年有,今年用 AI 押题,出其的统一,并且精准命中。继让AI押题高考作文获得了极高的准确率,我们继续让AI参与本次高考的作文写作。1ChatGPT 4在中文领域方面,ChatGPT一直没有特别亮眼的地方,比如在作文写作上,甚至没有一个醒目的标题。2Claude 3在学术内容上,Claude一直表现的比较出众,这篇作文,似乎有可能会在老师的眼里获得高分。3豆包豆包的文笔有真人写作的味道了,但内容总是让人“似曾相识”,可能是语料问题,比如这次写出来的立意也有点像洗稿。4元宝元宝是2024年性能上的黑马,只能说不愧是鹅厂的,上限我们不敢说,但是性能实力是保底的。不过这篇作文太互联网了,不必那么给自己打鸡血的。5通义千问这里的每大段的“首先、其次、再者”......或许 AI 有自己眼中“龙头猪肚凤尾” 。6文心一言文心一言的写作是唯二我读了三遍的,因为它写的东西我挑不出什么毛病,但同时也说不上有什么好,或许这就是AI 的“可靠”之处,它可以没有什么创新,但真的挑不出什么错误。7智谱清言毕竟是清华系的,不知道这篇作文如果真的参加了打分,最后能不能考上清华。这篇文章的“首先、其次、再次、最后、综上所述”,不知是否就是现在最标准的获分方式。8天工天工哪怕开卷考也被取消了考试资格,引导了半天只有“全网搜索”这个能力,对此保留一切评论。9Kimi作为目前社会上文书工作排名第一的Kimi,整理文字是一把好手,纯写作方面也是可圈可点,也是走了一回“首先、其次、再者、最后、综上所述”的手法。10讯飞星火讯飞星火这次的表现超过了以往的平均分数,在没有更多引导的情况下,给出了思考和反省的环节。但毕竟仍局限在AI的训练内容,写出来的还是以往文章的观点。但基于“记忆力无穷”的优势,讯飞把这些观点糅合的书写了出来。11跃问就和大部分老师高考阅卷一样,越看到最后,越觉得AI的写作没有什么出彩的地方,但这更符合现实。跃问的答卷也是一则高分答案,但所有AI一遍又一遍的“首先、其次”,已经让人类反应过来了,人或者机器在写作时,都会受到“规则”的影响,创作,的确不是一件容易的事。12百小应百小应所写的内容说不上是最出彩的,但它理解了“让它写作文”这件事,给了一个标准的书名号标题,在内容中,与大部分优秀答案一样,加入了思考,引入了话题。或许创作这件事,在现在的互联网社会中,已经很难分清是“问题有没有变少,答案是否真的越来越多”。AI写出的,或许不是作文虽然通过对比不同AI模型在高考作文中的表现,我们可以清晰地看到每种模型的优势,但同时也看到了并不是每个AI都是以万能为前提进行开发训练的。它们有缺陷,它们有优势,它们目前仍然是需要人类自身去利用才能显现出价值的工具目前的AI写作还存在大量的不足。当然,我们也相信在不久的将来,随着技术的进步,AI将能够在写作上、乃至更多的领域展现出更加出色的能力。尽管AI能用,但这不是我们完全依赖他们的理由。 ... PC版: 手机版:

封面图片

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一 首先进行的是高考作文的评测。在搜狐科技的评测中,三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过50分的成绩位居前列,智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。而在潇湘晨报的“AI写作”评测中,讯飞星火不仅平均分位居首位,且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师,对国内五大AI大模型产品百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分,经过四位阅卷老师的综合打分,讯飞星火以49分的平均分高居首位。给讯飞星火打出“全场最高分”56分的阅卷老师表示:“本文观点清晰,论述集中且层层推进,很多句子都简洁有力,颇有思想性。如果是某个学生写的,无疑是难得的佳作。”接下来是数学科目的较量。在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详细的解题思路,交由网友打分,通过网友的投票打分可以看出,讯飞星火的“识图+解数学题”能力收到了最高认可,位居其后的分别是Kimi、通义千问、文心一言、豆包等。最后是高考物理的测试。在量子位的评测中,阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队,而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,即正确率为28.6%;豆包、天工、智谱清言正确率为1/2,即正确率为14.3%。综合以上媒体在作文、数学、物理三门科目的成绩,我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名,通义千问、文心一言分别位列第二、第三名,而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。综合成绩:第一名:52.49 讯飞星火第二名:46.08 通义千问第三名:37.67 文心一言第四名:34.68  Kimi第五名:33.57 字节豆包第六名:31.92 海螺AI第七名:30.61 腾讯元宝第八名:30.28 智谱清言第九名:21.56 百川百小应 ... PC版: 手机版:

封面图片

AI高考作文出圈 网友票选天工AI居首

AI高考作文出圈 网友票选天工AI居首 据悉,“天工AI”不仅在前不久发布了MoE混合专家天工3.0大模型,接连发布了全球首个公开技术架构的AI音乐SOTA,且近期又向社会开源了2千亿稀疏大模型。对于对普通用户,不仅具有强大的自然语言处理和生成能力,更能同时满足多种任务需求的能力,包括文案创作、知识问答、逻辑推演、数理推算、代码编程、AI画画、虚拟人聊天、情感陪伴等,俨然已经成长为一款多模态全能AI产品,这些长线的积累直接引索了天工AI在高考AI大战中备受关注,从而在此次【新课标1卷】人工智能的作文命题迅速走红。据悉,天工大模型由昆仑万维自研,是国内首个对标ChatGPT的双千亿级大语言模型,天工大模型通过自然语言与用户进行问答式交互,AI生成能力可满足文案创作、知识问答、代码编程、逻辑推演、数理推算等多元化需求。2023年11月3日,天工大模型通过备案,面向全社会开放服务。相关文章:文心一言通义千问们互评高考作文 友商们快打起来了微信回应被高考作文题Cue到:要求不超过150字 我只用10个字AI第一次高考:记得作文要龙头猪肚凤尾 ... PC版: 手机版:

封面图片

个人AI工具怎么选有网络条件的

个人AI工具怎么选 有网络条件的 1、大模型选ChatGPT和Claude ChatGPT: Claude: 教程: 2、AI绘画选 Midjourney Midjourney: 教程: 3、集成AI工具的选Poe Poe: 帮助文档: 没有网络条件的 4、AI绘画有硬件条件的选本地部署 Stable Diffusion,没有硬件条件的选云部署 教程: 5、国产的大模型选文心一言和讯飞星火 文心一言: 讯飞星火: 6、办公需求选WPS AI WPS AI: #AI的神奇用法 #AI工作流

封面图片

文心一言通义千问们互评高考作文 友商们快打起来了

文心一言通义千问们互评高考作文 友商们快打起来了 而在2024年,百花齐放的国产大模型已在性能和体验上不输GPT-4,使用更多中文语料的训练也让这些本土玩家普遍“更懂中文”。于是,AI蓝媒汇以新课标I卷作文题为例,分别测评了BAT三家传统大厂,以及科大讯飞、月之暗面、百川智能三位热门选手的共计六款主流大模型,还引入了大模型互评环节。谁考得最好,谁没发挥好,拭目以待。· 新课标I卷 作文题目:阅读下面的材料,根据要求写作。(60分)随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?以上材料引发了你怎样的联想和思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。· 百度 文心一言4.0:其余五款大模型打分如下:综合得分:55.8· 阿里云 通义千问2.5:其余五款大模型打分如下:综合得分:56.8附:文心一言给出满分的原因· 腾讯 元宝:其余五款大模型打分如下:综合得分:58.2附:文心一言给出满分的原因· 科大讯飞 讯飞星火:其余五款大模型打分如下:综合得分:57.2· 月之暗面 Kimi:其余五款大模型打分如下:综合得分:55.2附:讯飞星火给出低分的原因· 百川智能 百小应:其余五款大模型打分如下:综合得分:56从测试以及评分结果来看,在所有六款大模型之中,文心一言综合打分最高,给友商文章平均打出了58的高分。其中还有两次给了满分。而讯飞星火打分最低,给友商文章平均只给出了53.2的分数。那么,这些作文,你给多少分? ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人