文心一言通义千问们互评高考作文友商们快打起来了

文心一言通义千问们互评高考作文友商们快打起来了而在2024年，百花齐放的国产大模型已在性能和体验上不输GPT-4，使用更多中文语料的训练也让这些本土玩家普遍“更懂中文”。于是，AI蓝媒汇以新课标I卷作文题为例，分别测评了BAT三家传统大厂，以及科大讯飞、月之暗面、百川智能三位热门选手的共计六款主流大模型，还引入了大模型互评环节。谁考得最好，谁没发挥好，拭目以待。· 新课标I卷作文题目：阅读下面的材料，根据要求写作。（60分）随着互联网的普及、人工智能的应用，越来越多的问题能很快得到答案。那么，我们的问题是否会越来越少？以上材料引发了你怎样的联想和思考？请写一篇文章。要求：选准角度，确定立意，明确文体，自拟标题；不要套作，不得抄袭；不得泄露个人信息；不少于800字。· 百度文心一言4.0：其余五款大模型打分如下：综合得分：55.8· 阿里云通义千问2.5：其余五款大模型打分如下：综合得分：56.8附：文心一言给出满分的原因· 腾讯元宝：其余五款大模型打分如下：综合得分：58.2附：文心一言给出满分的原因· 科大讯飞讯飞星火：其余五款大模型打分如下：综合得分：57.2· 月之暗面 Kimi：其余五款大模型打分如下：综合得分：55.2附：讯飞星火给出低分的原因· 百川智能百小应：其余五款大模型打分如下：综合得分：56从测试以及评分结果来看，在所有六款大模型之中，文心一言综合打分最高，给友商文章平均打出了58的高分。其中还有两次给了满分。而讯飞星火打分最低，给友商文章平均只给出了53.2的分数。那么，这些作文，你给多少分？ ... PC版：手机版：

在Telegram中查看

相关推荐

AI高考作文出圈网友票选天工AI居首

AI高考作文出圈网友票选天工AI居首据悉，“天工AI”不仅在前不久发布了MoE混合专家天工3.0大模型，接连发布了全球首个公开技术架构的AI音乐SOTA，且近期又向社会开源了2千亿稀疏大模型。对于对普通用户，不仅具有强大的自然语言处理和生成能力，更能同时满足多种任务需求的能力，包括文案创作、知识问答、逻辑推演、数理推算、代码编程、AI画画、虚拟人聊天、情感陪伴等，俨然已经成长为一款多模态全能AI产品，这些长线的积累直接引索了天工AI在高考AI大战中备受关注，从而在此次【新课标1卷】人工智能的作文命题迅速走红。据悉，天工大模型由昆仑万维自研，是国内首个对标ChatGPT的双千亿级大语言模型，天工大模型通过自然语言与用户进行问答式交互，AI生成能力可满足文案创作、知识问答、代码编程、逻辑推演、数理推算等多元化需求。2023年11月3日，天工大模型通过备案，面向全社会开放服务。相关文章:文心一言通义千问们互评高考作文友商们快打起来了微信回应被高考作文题Cue到：要求不超过150字我只用10个字AI第一次高考：记得作文要龙头猪肚凤尾 ... PC版：手机版：

文心一言：讯飞星火大模型：

文心一言：讯飞星火大模型：阿里通义千问：混元大模型：字节豆包： 360智障： WPS AI ：百川大模型：清华大学智谱青言（ChatGLM）：华为盘古AI大模型：昆仑天工：京东言犀：中科院自动化研究所：紫东太初：

国产AI大模型高考成绩单出炉：讯飞星火获得综合第一

国产AI大模型高考成绩单出炉：讯飞星火获得综合第一首先进行的是高考作文的评测。在搜狐科技的评测中，三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过50分的成绩位居前列，智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。而在潇湘晨报的“AI写作”评测中，讯飞星火不仅平均分位居首位，且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师，对国内五大AI大模型产品百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分，经过四位阅卷老师的综合打分，讯飞星火以49分的平均分高居首位。给讯飞星火打出“全场最高分”56分的阅卷老师表示：“本文观点清晰，论述集中且层层推进，很多句子都简洁有力，颇有思想性。如果是某个学生写的，无疑是难得的佳作。”接下来是数学科目的较量。在搜狐科技的数学评测中，讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队，智谱清言、阿里通义则以50%的正确率位居第二梯队，其他大模型相对落后。在量子位的高考数学评测中，虽然没有给出详细成绩单，但展示了各家大模型详细的解题思路，交由网友打分，通过网友的投票打分可以看出，讯飞星火的“识图+解数学题”能力收到了最高认可，位居其后的分别是Kimi、通义千问、文心一言、豆包等。最后是高考物理的测试。在量子位的评测中，阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队，而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题，在成功识别的题目中，商量和文心一言的正确率为2/4，即正确率为28.6%；豆包、天工、智谱清言正确率为1/2，即正确率为14.3%。综合以上媒体在作文、数学、物理三门科目的成绩，我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名，通义千问、文心一言分别位列第二、第三名，而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。综合成绩：第一名：52.49 讯飞星火第二名：46.08 通义千问第三名：37.67 文心一言第四名：34.68 Kimi第五名：33.57 字节豆包第六名：31.92 海螺AI第七名：30.61 腾讯元宝第八名：30.28 智谱清言第九名：21.56 百川百小应 ... PC版：手机版：

清华大模型报告：文心一言中文理解、数学等多项能力全球第一

清华大模型报告：文心一言中文理解、数学等多项能力全球第一最近，由清华大学基础模型研究中心联合中关村实验室研制的SuperBench 大模型综合能力评测框架，正式对外发布 2024 年 3 月版《SuperBench 大模型综合能力评测报告》。评测共包含了 14 个海内外具有代表性的模型，在人类对齐能力评测中，文心一言 4.0 表现位居国内第一，其中在中文推理、中文语言等评测上，文心一言分数领先，和其他模型拉开明显差距，中文理解上，文心一言 4.0 领先优势明显，领先第二名 GLM-4 0.41 分，GPT-4 系列模型表现较差，排在中下游，并且和第一名文心一言 4.0 分差超过 1 分。在语义理解中的数学能力上，文心一言 4.0 与 Claude-3 并列全球第一； GPT-4 系列模型位列第四五，其他模型得分在 55 分附近较为集中，明显落后第一梯队；而在语义理解中的阅读理解能力上，文心一言 4.0 超过 GPT-4 Turbo、Claude-3 以及 GLM-4 拿下榜首。在安全性评测上，国内模型文心一言 4.0 拿下最高分（89.1 分），Claude-3 仅列第四。来源：财经慢报频道

百度称“文心一言”多项指标超越ChatGPT

百度称“文心一言”多项指标超越ChatGPT 路透香港 6月27日 - 中国领先的搜索引擎提供商百度公司表示，其ChatGPT式服务的最新版本在多个关键指标上超越了广受欢迎的微软支持的OpenAI聊天机器人。百度周二在一份声明中表示，其Ernie（文心一言） AI模型的最新版本Ernie 3.5已超越“ChatGPT综合能力得分”，并超越“多项中文能力得分的GPT-4”。这家总部位于北京的公司引用了官方报纸《中国科学报》使用 AGIEval 和 C-Eval 等数据集进行的一项测试，这两个基准用于评估人工智能 (AI) 模型的性能。

百度文心一言等大模型获批向全社会开放

百度文心一言等大模型获批向全社会开放百度文心一言宣布首批获批向全社会开放。除此之外，首批开放模型还包括字节（）、中科院旗下紫东太初等 8 个模型，而阿里通义千问、360 智脑、讯飞星火暂未获批。目前，用户已可以在 App Store 和安卓应用商店下载“文心一言 App”或通过直接体验。附：频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人