国产AI大模型高考成绩单出炉:讯飞星火获得综合第一

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一 首先进行的是高考作文的评测。在搜狐科技的评测中,三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过50分的成绩位居前列,智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。而在潇湘晨报的“AI写作”评测中,讯飞星火不仅平均分位居首位,且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师,对国内五大AI大模型产品百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分,经过四位阅卷老师的综合打分,讯飞星火以49分的平均分高居首位。给讯飞星火打出“全场最高分”56分的阅卷老师表示:“本文观点清晰,论述集中且层层推进,很多句子都简洁有力,颇有思想性。如果是某个学生写的,无疑是难得的佳作。”接下来是数学科目的较量。在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详细的解题思路,交由网友打分,通过网友的投票打分可以看出,讯飞星火的“识图+解数学题”能力收到了最高认可,位居其后的分别是Kimi、通义千问、文心一言、豆包等。最后是高考物理的测试。在量子位的评测中,阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队,而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,即正确率为28.6%;豆包、天工、智谱清言正确率为1/2,即正确率为14.3%。综合以上媒体在作文、数学、物理三门科目的成绩,我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名,通义千问、文心一言分别位列第二、第三名,而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。综合成绩:第一名:52.49 讯飞星火第二名:46.08 通义千问第三名:37.67 文心一言第四名:34.68  Kimi第五名:33.57 字节豆包第六名:31.92 海螺AI第七名:30.61 腾讯元宝第八名:30.28 智谱清言第九名:21.56 百川百小应 ... PC版: 手机版:

相关推荐

封面图片

文心一言:讯飞星火大模型:

文心一言: 讯飞星火大模型: 阿里通义千问: 混元大模型: 字节豆包: 360智障: WPS AI : 百川大模型: 清华大学智谱青言(ChatGLM): 华为盘古AI大模型: 昆仑天工: 京东言犀: 中科院自动化研究所:紫东太初:

封面图片

讯飞星火Lite API永久免费开放

讯飞星火Lite API永久免费开放 5月22日,科大讯飞宣布,讯飞星火API能力正式免费开放。 其中,讯飞星火Lite API永久免费开放,讯飞星火顶配版(Spark3.5 Max)API价格低至0.21/万Tokens。 目前百度的文心一言ERNIE-4. 0和阿里的通义千问Qwen-Max 的定价为1.2元/万Tokens,讯飞星火定价不足其五分之一。(全天候科技) 标签: #讯飞 #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

科大讯飞发布星火大模型4.0 整体表现超越GPT-4 Turbo

科大讯飞发布星火大模型4.0 整体表现超越GPT-4 Turbo 星火大模型V4.0不仅在8个国际主流测试中名列榜首,领先于国内其他大模型,而且其能力已全面匹敌GPT-4 Turbo。在文本生成、语音理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力这七大评测体系中,星火大模型V4.0与GPT-4 Turbo各有胜负。特别是在文本生成、语音理解、知识问答、逻辑推理和数学能力这五大日常体验较深的领域,星火大模型V4.0全面超越了GPT-4 Turbo。科大讯飞CEO刘庆峰还宣布,讯飞星火App在安卓端的下载量已超过1.31亿次。在星火大模型的加持下,讯飞智能硬件的销量同比增长了70%,月均使用次数超过了4000万。 ... PC版: 手机版:

封面图片

科大讯飞:明日发布星火认知 AI 大模型 V1.5,同步上线配套 App

科大讯飞:明日发布星火认知 AI 大模型 V1.5,同步上线配套 App 科大讯飞发布公告,宣布该公司将在 6 月 9 日 14 点召开“讯飞星火认知大模型 V1.5 发布会”,会中将介绍 “讯飞星火认知大模型”的新进展,并发布配套“星火”App 及“星火助手中心”。 据介绍,“讯飞星火认知大模型”V1.5 开放式问答取得了一定突破,多轮对话和数学能力得到了升级,此外,模型的“文本生成”、“语言理解”、“逻辑推理能力”都得到了持续提升。 科大讯飞表示,星火认知大模型在学习、医疗、工业、办公等领域进一步的商业落地成果将在发布会中同时公布。同时,该公司还将推出星火 App,提升手机端交互体验。并推出星火助手中心,打造“覆盖工作及生活场景的快捷助手”,“开启人机协作共创的新生态”。 官方表示,从公司星火大模型内测到发布以来,获得市场认可,“中文已超越 ChatGPT”,在“国内大模型中遥遥领先”,同时其在应用方面,公司拥有教育、医疗、金融、汽车等行业数据积累,并有望通过 AI 模型接入提升项目或单品客单价。 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

12个国产大模型大战高考数学 意外炸出个大bug

12个国产大模型大战高考数学 意外炸出个大bug 继国产大模型挑战高考作文之后,是时候再战一下高考数学了。数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。那么现在,是时候考验国产大模型们的数学能力了。有请“选手们”登场Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。国产大模型 vs 高考数学选择题根据数学题目类型的不同,我们先来小试牛刀一下选择题。测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案:查看题目,给出第1题到第8题的答案。接下来,我们就来一同看下国产大模型们的表现。Kimi通义千问豆包智谱清言百小应讯飞星火商量腾讯元宝海螺AI万知不难看出,很多国产大模型还未做数学题,先败在了AI识图这个步骤,无法生成答案。(PS:有几位选手测试时因为无法识别,未能完成答题,因此没有放出结果。)那么我们最后来看下“踢馆选手”GPT-4o。国产大模型 vs 数学大题鉴于一些国产大模型AI识图有点困难,我们这次直接先把这次高考的大题题目文字给copy出来,再让它们作答:设n为正整数,数列 ( a1, a_2, cdots, a{4m+2} ) 是公差不为0的等差数列。若从中抽去项 ( ai ) 和 ( a_j ) (i < j) 后剩余的 ( 4m ) 项可被平均分为 m 组,且每组的 4 个数都能构成等差数列,则称数列 ( a_1, a_2, cdots, a{4m+2} ) 是 (i, j) - 可分数列。(1) 写出所有的 (i, j) (1 ≤ i < j ≤ 6),使得数列 ( a_1, a_2, a_3, a_4, a_5, a_6 ) 是 (i, j) - 可分数列;(2) 当 ( m = 3 ) 时,证明:数列 ( a1, a_2, cdots, a{13} ) 是 (2, 13) - 可分数列;(3) 设 ( a1, a_2, cdots, a{4m+2} ) 是 (i, j) - 可分数列。记数列 ( a1, a_2, cdots, a{4m+2} ) 中任取两个数和 i (i < j),则数列是 (i, j) - 可分数列的概率为 ( p_n ),证明:( p_n geq frac{1}{8} )。接下来,我们再来看下国产大模型们的表现。Kimi通义千问文心一言豆包智谱清言百小应讯飞星火商量腾讯元宝天工海螺AI万知最后,还是有请“踢馆选手”GPT-4o。那么,你觉得国产大模型们,识图+解数学题,哪家比较好一点呢?最后,关于AI智能助手,这里也有一份最新用户数据分析报告供你参考: ... PC版: 手机版:

封面图片

海通证券:维持科大讯飞 “优于大市” 评级 讯飞星火大模型 V4.0 发布

海通证券:维持科大讯飞 “优于大市” 评级 讯飞星火大模型 V4.0 发布 海通证券研报指出,科大讯飞 () 发布讯飞星火大模型 V4.0,实现了对 GPT-4 Turbo 的全面对标,这标志着公司的大模型已经达到了世界领先的水平,而伴随模型升级,公司在 AI2C(“个人空间”、讯飞晓医 APP、星火智能批阅机等)、AI2B(星火汽车智能座舱、机器人超脑平台 2.0、星火企业智能体平台等)端业务都有了一定的拓展和突破,而伴随未来讯飞星火大模型 V4.0 的持续发展,公司的相关业务拓展也有望持续加速。该行预计公司 2024-2026 营收分别为 226.22/266.97/323.31 亿元,综合考虑,给予公司 2024 年动态 PS 5-6 倍,对应 6 个月合理价值区间为 48.93-58.71 元,维持 “优于大市” 评级。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人