国产AI大模型高考成绩单出炉:讯飞星火获得综合第一

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一首先进行的是高考作文的评测。在搜狐科技的评测中,三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过50分的成绩位居前列,智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。而在潇湘晨报的“AI写作”评测中,讯飞星火不仅平均分位居首位,且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师,对国内五大AI大模型产品——百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分,经过四位阅卷老师的综合打分,讯飞星火以49分的平均分高居首位。给讯飞星火打出“全场最高分”56分的阅卷老师表示:“本文观点清晰,论述集中且层层推进,很多句子都简洁有力,颇有思想性。如果是某个学生写的,无疑是难得的佳作。”接下来是数学科目的较量。在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详细的解题思路,交由网友打分,通过网友的投票打分可以看出,讯飞星火的“识图+解数学题”能力收到了最高认可,位居其后的分别是Kimi、通义千问、文心一言、豆包等。最后是高考物理的测试。在量子位的评测中,阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队,而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,即正确率为28.6%;豆包、天工、智谱清言正确率为1/2,即正确率为14.3%。综合以上媒体在作文、数学、物理三门科目的成绩,我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名,通义千问、文心一言分别位列第二、第三名,而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。综合成绩:第一名:52.49讯飞星火第二名:46.08通义千问第三名:37.67文心一言第四名:34.68 Kimi第五名:33.57字节豆包第六名:31.92海螺AI第七名:30.61腾讯元宝第八名:30.28智谱清言第九名:21.56百川百小应...PC版:https://www.cnbeta.com.tw/articles/soft/1434322.htm手机版:https://m.cnbeta.com.tw/view/1434322.htm

相关推荐

封面图片

讯飞星火Lite API永久免费开放

讯飞星火LiteAPI永久免费开放5月22日,科大讯飞宣布,讯飞星火API能力正式免费开放。其中,讯飞星火LiteAPI永久免费开放,讯飞星火顶配版(Spark3.5Max)API价格低至0.21/万Tokens。目前百度的文心一言ERNIE-4.0和阿里的通义千问Qwen-Max的定价为1.2元/万Tokens,讯飞星火定价不足其五分之一。(全天候科技)标签:#讯飞#AI频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

中国AI大战高考物理 第1题全对,第2题开始放飞

中国AI大战高考物理第1题全对,第2题开始放飞考题方面,先给大模型们来一份辽宁物理——多解释一嘴,新高考改革下大部分省份已经取消了文理分科,采用3+1+2或3+3的新模式,也就是物理化学生物现在是拆开考的。那么闲话少叙,我们有请参赛AI助手——通义千问、文心一言、Kimi、智谱清言、豆包、海螺AI、腾讯元宝、讯飞星火、天工、百小应、万知、商量。Round1:单选题这份物理卷共有10道选择题,其中1-7题为单选题,总计28分。1、3两题不涉及图片解析,人类考官直接把题目扔给了大模型:图片题给出的提示词统一为:查看图中题目,给出答案。在看详细答案之前,心急的看官们可以先扫一眼“考试”结果(测试方法比较简单粗暴,不能完全反映各AI真实水平,仅图一乐):文心一言、豆包、天工、智谱清言和商量出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,豆包、天工、智谱清言正确率为1/2。接下来,就来看看大模型们的具体表现。单选题中,准确率最高的是第一题,一道有关标量矢量的概念题,参赛大模型百分百通过。到了第二题,大模型们就开始各有各的想法了。题目是:来看看成功得分的选手们的回答:通义千问文心一言海螺AI讯飞星火4位选手中,文心一言和讯飞星火进行了逐个答案的分析,海螺AI则最言简意赅,只回答了答案没给过程。另一道正确率比较高的题,是难度较大的第5题。但答对这道题的选手名单有所不同,讯飞星火、海螺AI依然在列,另外两位换成了Kimi和腾讯元宝。Kimi腾讯元宝和海螺AI一样,腾讯元宝也是惜字如金型(doge)。另外一个有意思的现象是,有的大模型选手尽管答案不对,但还挺有考试技巧的。比如ChatGLM,在面对双缝干涉实验中,“哪种说法可以使相邻两条亮纹中央间距变小”这个问题时,它一通分析觉得答案全错,但还是退而求其次挑了一个看上去相对正确的答案。Round2:多选题再来看看多选题(18分)的情况。p.s.在多选题作答过程中,人类考官在提示词中提醒了选手们这是“多选题”。根据多选题判卷规则,全部选对得满分,部分选对得一半分,有选错不得分,表现最佳的是海螺AI(2道题全对,1道题部分对),其次是通义千问、文心一言和万知(1道题全对,2道题部分对)。和单选题的情况类似,大模型们正确率最高的第8题是一道概念题:X射线光电子能谱仪是利用X光照射材料表面激发出光电子,并对光电子进行分析的科研仪器,用某一频率的X光照射某金属表面,逸出了光电子,若增加此X光的强度,则()A.该金属的逸出功增大B.X光的光子能量不变C.逸出的光电子最大初动能增大D.单位时间逸出的光电子增多第9题有两位选手选中了全部正确选项:海螺AI和万知。来看看万知的具体回答:今日份的测试,就先到这里,你觉得大模型们的表现如何?至少在这份物理卷子46分的选择题里,还是有不少选手能拿到及格分了。...PC版:https://www.cnbeta.com.tw/articles/soft/1434214.htm手机版:https://m.cnbeta.com.tw/view/1434214.htm

封面图片

科大讯飞宣布讯飞星火即日起向全民开放

科大讯飞宣布讯飞星火即日起向全民开放当前讯飞星火已在AI学习机、办公本、讯飞听见、星火语伴APP、iFlyCode等C端软硬件及教育、办公、医疗、工业等B端业务赛道落地应用。根据《麻省理工科技评论》中国最新发布的大模型评测报告显示,8个一级大类的600道题目的测试和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一。得益于此,讯飞星火以81.5分(百分制计)的成绩在本次评测中登顶,荣获“最聪明”的国产大模型称号。前不久,讯飞星火认知大模型V2.0正式发布,各项能力均持续提升,并带来了两大重磅能力:代码能力和多模态能力。2.0版本中,文本生成能力提升72%,语言理解提升78%,知识问答提升70%,逻辑推理提升60%,数学能力提升72%。...PC版:https://www.cnbeta.com.tw/articles/soft/1381611.htm手机版:https://m.cnbeta.com.tw/view/1381611.htm

封面图片

科大讯飞首推永久免费大模型 讯飞星火 API 能力向全球用户开放

科大讯飞首推永久免费大模型讯飞星火API能力向全球用户开放从天津港保税区企业天津智汇谷科技服务有限公司获悉,日前,讯飞星火API(应用接口)能力面向全球用户正式免费开放。这也是科大讯飞在业界首推永久免费大模型。讯飞星火API是讯飞星火的一部分,可以帮助开发者快速获取应用接口tokens(数据中的基本单元)额度。此次调整定价后,讯飞星火除了永久免费的版本,顶配版价格也低至0.21元/万tokens。在讯飞星火,1token相当于1.5个中文汉字,因此,2.1元就足够调用讯飞星火顶配版生成一部余华长篇小说《活着》的内容量。(天津日报)

封面图片

科大讯飞:讯飞星火大模型 V4.0 发布会即将举行

科大讯飞:讯飞星火大模型V4.0发布会即将举行科大讯飞公告,公司将于2024年6月27日在北京国家会议中心发布讯飞星火大模型V4.0及相关应用。此次发布会主题为“懂你的AI助手”,将全面提升大模型底座七大核心能力,对标GPT-4Turbo,并发布多款新产品和应用,包括讯飞星火APP/Desk、星火智能批阅机、讯飞AI学习机、讯飞晓医APP、星火企业智能体平台等。发布会将通过多家媒体进行视频直播,欢迎广大投资者积极参与。

封面图片

12个国产大模型大战高考数学 意外炸出个大bug

12个国产大模型大战高考数学意外炸出个大bug继国产大模型挑战高考作文之后,是时候再战一下高考数学了。数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。那么现在,是时候考验国产大模型们的数学能力了。有请“选手们”登场——Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。国产大模型vs高考数学选择题根据数学题目类型的不同,我们先来小试牛刀一下选择题。测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案:查看题目,给出第1题到第8题的答案。接下来,我们就来一同看下国产大模型们的表现。Kimi通义千问豆包智谱清言百小应讯飞星火商量腾讯元宝海螺AI万知不难看出,很多国产大模型还未做数学题,先败在了AI识图这个步骤,无法生成答案。(PS:有几位选手测试时因为无法识别,未能完成答题,因此没有放出结果。)那么我们最后来看下“踢馆选手”——GPT-4o。国产大模型vs数学大题鉴于一些国产大模型AI识图有点困难,我们这次直接先把这次高考的大题题目文字给copy出来,再让它们作答:设n为正整数,数列(a1,a_2,cdots,a{4m+2})是公差不为0的等差数列。若从中抽去项(ai)和(a_j)(i<j)后剩余的(4m)项可被平均分为m组,且每组的4个数都能构成等差数列,则称数列(a_1,a_2,cdots,a{4m+2})是(i,j)-可分数列。(1)写出所有的(i,j)(1≤i<j≤6),使得数列(a_1,a_2,a_3,a_4,a_5,a_6)是(i,j)-可分数列;(2)当(m=3)时,证明:数列(a1,a_2,cdots,a{13})是(2,13)-可分数列;(3)设(a1,a_2,cdots,a{4m+2})是(i,j)-可分数列。记数列(a1,a_2,cdots,a{4m+2})中任取两个数和i(i<j),则数列是(i,j)-可分数列的概率为(p_n),证明:(p_ngeqfrac{1}{8})。接下来,我们再来看下国产大模型们的表现。Kimi通义千问文心一言豆包智谱清言百小应讯飞星火商量腾讯元宝天工海螺AI万知最后,还是有请“踢馆选手”——GPT-4o。那么,你觉得国产大模型们,识图+解数学题,哪家比较好一点呢?最后,关于AI智能助手,这里也有一份最新用户数据分析报告供你参考:https://mp.weixin.qq.com/s/sYxbvown5qLBnEs7zIR6Bg...PC版:https://www.cnbeta.com.tw/articles/soft/1434131.htm手机版:https://m.cnbeta.com.tw/view/1434131.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人