文心一言通义千问们互评高考作文 友商们快打起来了

文心一言通义千问们互评高考作文 友商们快打起来了 而在2024年,百花齐放的国产大模型已在性能和体验上不输GPT-4,使用更多中文语料的训练也让这些本土玩家普遍“更懂中文”。于是,AI蓝媒汇以新课标I卷作文题为例,分别测评了BAT三家传统大厂,以及科大讯飞、月之暗面、百川智能三位热门选手的共计六款主流大模型,还引入了大模型互评环节。谁考得最好,谁没发挥好,拭目以待。· 新课标I卷 作文题目:阅读下面的材料,根据要求写作。(60分)随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?以上材料引发了你怎样的联想和思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。· 百度 文心一言4.0:其余五款大模型打分如下:综合得分:55.8· 阿里云 通义千问2.5:其余五款大模型打分如下:综合得分:56.8附:文心一言给出满分的原因· 腾讯 元宝:其余五款大模型打分如下:综合得分:58.2附:文心一言给出满分的原因· 科大讯飞 讯飞星火:其余五款大模型打分如下:综合得分:57.2· 月之暗面 Kimi:其余五款大模型打分如下:综合得分:55.2附:讯飞星火给出低分的原因· 百川智能 百小应:其余五款大模型打分如下:综合得分:56从测试以及评分结果来看,在所有六款大模型之中,文心一言综合打分最高,给友商文章平均打出了58的高分。其中还有两次给了满分。而讯飞星火打分最低,给友商文章平均只给出了53.2的分数。那么,这些作文,你给多少分? ... PC版: 手机版:

相关推荐

封面图片

AI高考作文出圈 网友票选天工AI居首

AI高考作文出圈 网友票选天工AI居首 据悉,“天工AI”不仅在前不久发布了MoE混合专家天工3.0大模型,接连发布了全球首个公开技术架构的AI音乐SOTA,且近期又向社会开源了2千亿稀疏大模型。对于对普通用户,不仅具有强大的自然语言处理和生成能力,更能同时满足多种任务需求的能力,包括文案创作、知识问答、逻辑推演、数理推算、代码编程、AI画画、虚拟人聊天、情感陪伴等,俨然已经成长为一款多模态全能AI产品,这些长线的积累直接引索了天工AI在高考AI大战中备受关注,从而在此次【新课标1卷】人工智能的作文命题迅速走红。据悉,天工大模型由昆仑万维自研,是国内首个对标ChatGPT的双千亿级大语言模型,天工大模型通过自然语言与用户进行问答式交互,AI生成能力可满足文案创作、知识问答、代码编程、逻辑推演、数理推算等多元化需求。2023年11月3日,天工大模型通过备案,面向全社会开放服务。相关文章:文心一言通义千问们互评高考作文 友商们快打起来了微信回应被高考作文题Cue到:要求不超过150字 我只用10个字AI第一次高考:记得作文要龙头猪肚凤尾 ... PC版: 手机版:

封面图片

文心一言:讯飞星火大模型:

文心一言: 讯飞星火大模型: 阿里通义千问: 混元大模型: 字节豆包: 360智障: WPS AI : 百川大模型: 清华大学智谱青言(ChatGLM): 华为盘古AI大模型: 昆仑天工: 京东言犀: 中科院自动化研究所:紫东太初:

封面图片

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一

国产AI大模型高考成绩单出炉:讯飞星火获得综合第一 首先进行的是高考作文的评测。在搜狐科技的评测中,三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过50分的成绩位居前列,智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。而在潇湘晨报的“AI写作”评测中,讯飞星火不仅平均分位居首位,且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师,对国内五大AI大模型产品百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分,经过四位阅卷老师的综合打分,讯飞星火以49分的平均分高居首位。给讯飞星火打出“全场最高分”56分的阅卷老师表示:“本文观点清晰,论述集中且层层推进,很多句子都简洁有力,颇有思想性。如果是某个学生写的,无疑是难得的佳作。”接下来是数学科目的较量。在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详细的解题思路,交由网友打分,通过网友的投票打分可以看出,讯飞星火的“识图+解数学题”能力收到了最高认可,位居其后的分别是Kimi、通义千问、文心一言、豆包等。最后是高考物理的测试。在量子位的评测中,阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队,而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,即正确率为28.6%;豆包、天工、智谱清言正确率为1/2,即正确率为14.3%。综合以上媒体在作文、数学、物理三门科目的成绩,我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名,通义千问、文心一言分别位列第二、第三名,而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。综合成绩:第一名:52.49 讯飞星火第二名:46.08 通义千问第三名:37.67 文心一言第四名:34.68  Kimi第五名:33.57 字节豆包第六名:31.92 海螺AI第七名:30.61 腾讯元宝第八名:30.28 智谱清言第九名:21.56 百川百小应 ... PC版: 手机版:

封面图片

清华大模型报告:文心一言中文理解、数学等多项能力全球第一

清华大模型报告:文心一言中文理解、数学等多项能力全球第一 最近,由清华大学基础模型研究中心联合中关村实验室研制的SuperBench 大模型综合能力评测框架,正式对外发布 2024 年 3 月版《SuperBench 大模型综合能力评测报告》。评测共包含了 14 个海内外具有代表性的模型,在人类对齐能力评测中,文心一言 4.0 表现位居国内第一,其中在中文推理、中文语言等评测上,文心一言分数领先,和其他模型拉开明显差距,中文理解上,文心一言 4.0 领先优势明显,领先第二名 GLM-4 0.41 分,GPT-4 系列模型表现较差,排在中下游,并且和第一名文心一言 4.0 分差超过 1 分。在语义理解中的数学能力上,文心一言 4.0 与 Claude-3 并列全球第一; GPT-4 系列模型位列第四五,其他模型得分在 55 分附近较为集中,明显落后第一梯队;而在语义理解中的阅读理解能力上,文心一言 4.0 超过 GPT-4 Turbo、Claude-3 以及 GLM-4 拿下榜首。在安全性评测上,国内模型文心一言 4.0 拿下最高分(89.1 分),Claude-3 仅列第四。 来源:财经慢报频道

封面图片

百度称“文心一言”多项指标超越ChatGPT

百度称“文心一言”多项指标超越ChatGPT 路透香港 6月27日 - 中国领先的搜索引擎提供商百度公司表示,其ChatGPT式服务的最新版本在多个关键指标上超越了广受欢迎的微软支持的OpenAI聊天机器人。 百度周二在一份声明中表示,其Ernie(文心一言) AI模型的最新版本Ernie 3.5已超越“ChatGPT综合能力得分”,并超越“多项中文能力得分的GPT-4”。 这家总部位于北京的公司引用了官方报纸《中国科学报》使用 AGIEval 和 C-Eval 等数据集进行的一项测试,这两个基准用于评估人工智能 (AI) 模型的性能。

封面图片

百度文心一言等大模型获批向全社会开放

百度文心一言等大模型获批向全社会开放 百度文心一言宣布首批获批向全社会开放。除此之外,首批开放模型还包括字节()、中科院旗下紫东太初等 8 个模型,而阿里通义千问、360 智脑、讯飞星火暂未获批。 目前,用户已可以在 App Store 和安卓应用商店下载“文心一言 App”或通过直接体验。附: 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人