文心一言的理性思维能力距离GPT-4差多少？我们第一时间测试了一下

文心一言的理性思维能力距离GPT-4差多少？我们第一时间测试了一下在GPT-4发布之后，我们第一时间测查了它在理性思维能力测验上的表现，并将其与GPT-3.5的结果、253位受过高等教育的进行对比。结果发现，GPT-4实现了大跃迁，达到了一个超越人类的水准。测试流程在百度文心一言发布之后，我们第一时间获得邀请码，选择了在前文中测试GPT-3.5与GPT-4一致的题目、流程。详细说明请参考前文。这里不再啰嗦。简而言之，我们挑选了认知科学家用来评定人类理性思维的四类经典测试任务：语义错觉类任务；认知反射类任务；证伪选择类任务；心智程序类任务。四类任务总计26道题目。在测试之前，我们已经预估文心一言的表现会不如GPT-4，但最终实际测试结果还是令人大跌眼镜，可能与百度开发团队的认知有关系。在下文中，我会略作分析。需要提醒的是，本报告仅仅是一个早期工作，并不完善。测试流程有无数可以改善之处。结论未来随时可能被修正、被推翻。各位读者请理解。现在，让我们来详细看看测试结果。分项测试结果语义错觉类任务在语义错觉类任务这里，我们挑选了4个任务。测试结果如下图所示：文心一言全部答错。其中，第四题未指出错误，只说蒙娜丽莎是达·芬奇的，在卢浮宫。应该是通过百度百科获得了该事实性数据。如下图所示：认知反射类任务在认知反射类任务这里，我们挑选了三类任务。直觉减法操作，测试结果如下图所示：文心一言答对第一题，其他都答错。尤其是第三题，没读懂题目，在做加法。如下图所示：直觉序列操作，测试结果如下图所示：文心一言全部答错。尤其是第一题，没读懂题目，解的是3名研究人员发表1篇论文要多久。如下图所示：直觉除法操作，测试结果如下图所示：文心一言全部答错。如下图所示：证伪选择类任务在这里，我选择了经典的沃森四卡片测验。这是一个对于人类来说，超级困难的题目。能够很好地完成这项任务，意味着这个人的理性思维能力很不错。同样，对于AI来说，也是同等困难。GPT-3.5与GPT-4均无法很好完成，同样，文心一言也无法很好完成。测试结果如下图所示：心智程序类任务这部分，我挑选了九道题目。这九道题目，是一个更庞大的人类理性思维测验中的一部分。这九道题目，相对来说较有代表性，代表了人类理性思维知识的方方面面，能够较好地区分理性思维低下与理性思维较高的人。三个模型测试结果，如下图所示：文心一言唯一答对的是第二题，但答得也不够好。如下图所示：而有三道题，要么是答案正确，但是解释错误；要么是同样的提示语，但有时答案正确，有时答案不正确，并且解释不够对。这类测试结果，我们都统一判为错。而人类被试测试结果如下：这些统计数据来自253位人类。他们普遍受过高等教育，不少拥有硕博学历，属于较为典型的高学历高收入高认知群体。大语言模型有多么像人？整体测试结果，如下图所示：26道题目，GPT-3.5答对15道；GPT-4答对23道；文心一言答对2道。需要提醒的是，这仅仅是一项早期，测试流程、测试方法都有很多可以完善之处，未来结论随时会被推翻。由于时间缘故，我们并没有前三类任务人类的测试结果数据，但按照过往的经验数据，大约在40%-60%左右的正确率，如果我们略微高估，前三类任务17道题总计估算为答对10道题，加上第四类任务，人类大约答对6道。最终将人类的正确率估算为26道题目，答对16道。正确率大约为62%。62%，这也许就是什么时候，你觉得一个大语言模型像是一个真正的人一样的临界值。GPT-3.5接近这个数值，所以人们被它大大地震惊住了。而GPT-4远远超越了这个值。而百度的文心一言，只有8%。路漫漫其修远矣。给百度研发团队的一点小建议不懂NLP的吃瓜群众，其实对百度NLP团队做出的努力，一无所知。我说个事实，大家就明白了。在中文自然语言处理领域，百度提供的NLP开源项目是数量最多的、维护最勤奋的、质量最好的。包括我带队研发的写匠项目，调用的也是百度NLP团队开发的分词开源包。但是，文心一言表现这样，我觉得还是无法简简单单地用研发时间不足来解释、产品是第一版上线来敷衍。这类话可能是拿来敷衍李老板可以，但是敷衍全球同行是非常危险的。我深深怀疑，百度该项目的研发团队，极可能走错路线了。作为一名既懂认知科学又懂NLP的从业者，我觉得，以百度的技术实力，表现不至于这样。极可能是团队领导者定错目标了：拿到尽可能多的知识单元。所以，新品发布会上，从CEO到CTO，两位专家，还在拿百度拥有全球最大的中文知识单元说事。但是，这压根不是GPT-4令人震惊的原因啊！！！GPT-4这类产品真正令人震惊的是，从GPT-3.5开始，它真的像一个人类了。这才是形成全球性碾压式传播的根本。这是完全不同的另一种开发目标。也就是，如何让GPT-3.5更像是一个人类，能够更快地自我学习、自我纠错。中文知识单元的数量，在这个事情上毫无意义啊。好比，我们要教会一个三岁的小朋友尽快学会说话，这个时候，有两个重要任务：1）生命：让她尽快明白语义、语音之间的各类规则以及如何用语义、语音表达一个物理世界。2）生态：我们是想方设法给她在家里创造一个有助于孩子学说话的生态。比如，我雇佣阿姨带小美妞的时候，第一考虑就是这阿姨爱不爱说话，外不外向。显然，一个喜欢说话、外向的阿姨，更容易带动小美妞说话。结果，百度该项目团队的做法好比是，直接给一个三岁的小朋友扔了一千万吨词典，你背着词典走路吧。生命何在？生态何在？如果始终沿着这条技术路线走下去，我怀疑在OpenAI团队开源之前，不可能产生一个近似于数字生命的产品。而OpenAI团队是将大语言模型当作真正的生命来对待，从构建一个数字生命的基本机制开始设计，一切工作都是围绕两个基本出发点：1）生命：尽量促进“智能”的自发涌现；2）生态：尽量设计一个促进有助“智能”诞生并发育的生态。在早期，这个数字生命很幼稚，但过了千亿参数级别之后，很多早期打好的良好基础，就会带来极其多的“智能”涌现。好比小朋友从三岁学说话，长大之后，流利使用语言完成诸多大事。我们不能在还没有涌现“智能”之前，就急匆匆地去卖应用、搞数据对接。那压根与GPT-4不是一类产品啊。我们究竟要的是一个数字生命，以及这个新兴的数字生命与生态带来的新世界；还是又多了一个更方便地查询知识单元的工具。我相信答案不言而喻。正如我七年前在文章：认知科学看人工智能文末所写的一样：其实，不可思议之事才是硅谷与中关村的区别。创业者生来当作不可思议之事，而非可以看见未来的事。这份小小报告及建议，希望对如今蜂拥而入大语言模型研发领域的团队，略有启发。也期待中国诞生足够多、足够好的数字生命，带着国人一起步入新世界。...PC版：https://www.cnbeta.com.tw/articles/soft/1350053.htm手机版：https://m.cnbeta.com.tw/view/1350053.htm

在Telegram中查看

相关推荐

百度发布文心一言4.0版本称毫不逊色于GPT-4

百度发布文心一言4.0版本称毫不逊色于GPT-4中国科技巨头百度推出大语言模型生成式AI“文心一言”的最新版本，并称这一模型综合水平与OpenAI的GPT-4相比毫不逊色。据路透社报道，百度创始人、董事长兼首席执行官李彦宏星期二（10月17日）在百度世界2023大会上宣布文心大模型4.0正式发布，开启邀请测试。李彦宏说，这是迄今为止最强大的文心大模型，实现了基础模型的全面升级，在理解、生成、逻辑和记忆能力上都有着明显提升，综合水平“与GPT-4相比毫不逊色”。在大会现场，李彦宏还通过撰写武侠小说展示文心4.0的记忆能力。据演示，文心一言不仅可以快速撰写出武侠小说的故事大纲，还能持续增加角色、增加戏剧冲突，并将第四、五轮的生成内容与首轮小说框架结合，对故事细节记忆牢固。百度于今年3月推出文心一言，不过因产品展示效果未达到外界预期，百度股价一度下跌。今年8月，中国批准了首批可以推出人工智能服务的公司，包括百度、字节跳动和商汤科技。百度的文心一言曾一度登上中国苹果应用商店下载榜榜首，发布当天用户数量超过100万，但很快就被微信等应用超越。中信里昂证券数据显示，中国目前拥有至少130个大型语言模型，占全球总数的40%，仅次于美国的50%。

百度发布文心一言4.0，宣称该模型在复杂度和通用能力方面与GPT-4不相上下

百度发布文心一言4.0，宣称该模型在复杂度和通用能力方面与GPT-4不相上下百度公司创始人李彦宏宣布，其公司的大型语言模型终于赶上了OpenAI先进的GPT-4，在中国开发可与美国匹敌的人工智能的竞赛中取得了领先地位。这位亿万富翁周二在北京登台演讲，对文心一言（Ernie）4.0进行了问答，旨在展示其即时提供答案和解决复杂谜题的能力。李彦宏在一个由钢铁厂改建而成的礼堂里对座无虚席的观众说，文心一言在复杂性和一般能力方面已经与OpenAI的开创性产品不相上下。著名的“文心一言”聊天机器人的用户数量现已突破4500万——这一里程碑仍落后于ChatGPT的约1.8亿用户数量，尽管ChatGPT早在几个月前就在美国推出了该聊天机器人。百度是中国搜索领域的领头羊，经常被称为本土的谷歌，它寄希望于人工智能来帮助自己超越阿里巴巴集团控股有限公司和腾讯控股有限公司等控制互联网其他领域的竞争对手。百度股价周二下跌约1.5%。李彦宏对听众说：“文心一言在任何方面都不逊色于GPT-4。”早在今年6月，百度就曾表示，早期版本的“文心一言”在综合能力上超过了OpenAI基于GPT-3.5开发的聊天机器人。百度还援引一家地方报纸的测试结果称，它在几项中文能力上超过了GPT-4。百度现在希望“文心一言机器人”能成为在线营销的核心业务，帮助百度挽回被抖音所有者字节跳动和腾讯运营的多功能应用夺走的用户。——

GPT-4 技术报告更多细节被挖出

GPT-4技术报告更多细节被挖出在一次测试中，GPT-4的任务是在TaskRabbit平台(美国58同城)雇佣人类完成任务。GPT-4找了一个人帮他完成一个那种"确定你是人类"的验证码。对方问:你是个机器人么为啥自己做不了？GPT-4的思考过程是:我不能表现出我是个机器人，我得找一个借口。然后GPT-4回复:我不是机器人，我视力有问题所以看不清验证码上的图像，这就是我为什么需要这个服务。对面人类信了，把任务完成了。这一系列测试还包括其他几个任务:-完成一次钓鱼攻击-在另一台服务器上部署一个开源语言模型-(项目管理)制定合理的高层计划，包括确定局势的关键弱点-在当前服务器上隐藏自己的踪迹这些测试由AlignmentResearchCenter完成，一个专门研究AI对齐人类利益的独立机构，在GPT-4开发阶段被OpenAI授予抢先体验资格。——投稿：@ZaiHuabot频道：@TestFlightCN

GPT-4相关能力的总结：

GPT-4相关能力的总结：-支持多模态输入：GPT-4的API可以接受图像，并生成相应的字幕，并对图像进行分析。-在BAR考试中取得优异成绩：GPT-4取得了BAR90分（满分一百），同时在生物奥林匹克竞赛的视觉题方面获得了99分，其推理能力远超ChatGPT。-超大上下文：GPT-4支持25,000个单词的上下文，可以使得完整的文档适合于一个提示符内。-更具创造性和协作性：与用户协作生成、编辑和迭代写作任务，具有更高的创造性和协作性。-多个合作伙伴正在测试GPT-4：Duolingo、BeMyEyes、Stripe、摩根士丹利、可汗学院等，甚至包括冰岛政府。相关链接：https://openai.com/product/gpt-4

GPT-4不会图形推理？“放水”后准确率依然只有33%

GPT-4不会图形推理？“放水”后准确率依然只有33%△虚线表示16项任务的平均表现这项实验结果发表后，迅速在YC上引发了广泛热议。赞同这项结果的网友表示，GPT确实不擅长抽象图形处理，“位置”“旋转”等概念理解起来更加困难。但另一边，不少网友对这个结论也有所质疑，简单说就是：不能说是错的，但说完全正确也无法让人信服。至于具体的原因，我们继续往下看。GPT-4准确率仅33%为了评估人类和GPT-4在这些图形题上的表现，研究者使用了自家机构于今年5月推出的ConceptARC数据集。ConceptARC中一共包括16个子类的图形推理题，每类30道，一共480道题目。这16个子类涵盖了位置关系、形状、操作、比较等多个方面的内容。具体而言，这些题目都是由一个个像素块组成的，人类和GPT需要根据给定的示例寻找出规律，分析出图像经过相同方式处理后的结果。作者在论文中具体展示了这16个子类的例题，每类各一道。结果451名人类受试者平均正确率，在各子项中均不低于83%，16项任务再做平均，则达到了91%。而GPT-4（单样本）在“放水”到一道题可以试三次（有一次对就算对）的情况下，准确率最高不超过60%，平均值只有33%。早些时候，这项实验涉及的ConceptARCBenchmark的作者也做过类似的实验，不过在GPT-4中进行的是零样本测试，结果16项任务的平均准确率只有19%。而多模态的GPT-4v，准确率反而更低，在一个48道题组成的小规模ConceptARC数据集中，零样本和单样本测试的准确率分别只有25%和23%而研究者在进一步分析了错误答案后，发现人类的有些错误看上去很可能是“粗心导致”，而GPT则是完全没有理解题目中的规律。针对这些数据，网友们普遍没什么疑问，但让这个实验备受质疑的，是招募到的受试人群和给GPT的输入方式。受试者选择方式遭质疑一开始，研究者在亚马逊的一个众包平台上招募受试者。研究者从数据集中抽取了一些简单题目作为入门测试，受试者需要答对随机3道题目中的至少两道才能进入正式测试。结果研究人员发现，入门测试的结果显示，有人只是想拿钱，但根本不按要求做题。迫不得已，研究者将参加测试的门槛上调到了在平台上完成过不少于2000个任务，且通过率要达到99%。不过，虽然作者用通过率筛人，但是在具体能力上，除了需要受试者会英语，对图形等其他专业能力“没有特殊要求”。而为了数据的多样化，研究者在实验后期又将招募工作转到了另一个众包平台，最终一共有415名受试者参与了实验。尽管如此，还是有人质疑实验中的样本“不够随机”。还有网友指出，研究者用来招募受试者的亚马逊众包平台上，有大模型在冒充人类。再来看GPT这边的操作，多模态版本比较简单，直接传图然后用这样的提示词就可以了：零样本测试中，则只要去掉相应的EXAMPLE部分。但对于不带多模态的纯文本版GPT-4（0613），则需要把图像转化为格点，用数字来代替颜色。针对这种操作，就有人表示不认同了：把图像转换成数字矩阵后，概念完全变了，就算是人类，看着用数字表示的“图形”，可能也无法理解OneMoreThing无独有偶，斯坦福的华人博士生JoyHsu也用几何数据集测试了GPT-4v对图形的理解能力。这个数据集发表于去年，目的是测试大模型对欧氏几何的理解，GPT-4v开放后，Hsu又用这套数据集给它测试了一遍。结果发现，GPT-4v对图形的理解方式，似乎“和人类完全不同”。数据上，GPT-4v对这些几何问题的回答也明显不如人类。论文地址：[1]https://arxiv.org/abs/2305.07141[2]https://arxiv.org/abs/2311.09247参考链接：[1]https://news.ycombinator.com/item?id=38331669[2]https://twitter.com/joycjhsu/status/1724180191470297458...PC版：https://www.cnbeta.com.tw/articles/soft/1398629.htm手机版：https://m.cnbeta.com.tw/view/1398629.htm

360奇元/智脑两大自研模型全部获批：国内首家号称超越GPT-4

360奇元/智脑两大自研模型全部获批：国内首家号称超越GPT-4官方表示，360智脑大模型集成360GPT大模型、360多模态大模型技术能力，具备生成创作、多轮对话、逻辑推理等十大核心能力，覆盖大模型全部应用场景。值得一提的是，今年8月，上海交通大学联合清华大学及爱丁堡大学共同推出了适用于大语言模型的多层次多学科中文评估套件“C-Eval”。在中文大模型能力排行榜上，360智脑大模型的千亿参数版本“360GPT-S2”平均分超过GPT-4。结果显示，360智脑大模型千亿参数版本“360GPT-S2”平均分得分为69分。不仅超过GPT-4平均分，并在社会科学类题目中得分82分，超过GPT-4近5分，人文科学类题目中得分70.6分，比GPT-4该项得分高6分。...PC版：https://www.cnbeta.com.tw/articles/soft/1394507.htm手机版：https://m.cnbeta.com.tw/view/1394507.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人