GPT-4 ,人类迈向AGI的第一步(上半)

GPT-4,人类迈向AGI的第一步(上半)文章节选+翻译了本月最重要的一篇论文的内容该论文是一篇长达154页的对GPT-4的测试。微软在很早期就接触到了GPT-4的非多模态版本,并进行了详尽的测试。论文不管是测试方法还是测试结论都非常精彩,强烈推荐https://orangeblog.notion.site/GPT-4-AGI-8fc50010291d47efb92cbbd668c8c893

相关推荐

封面图片

GPT-4论文竟有隐藏线索:GPT-5或完成训练、OpenAI两年内接近AGI

GPT-4论文竟有隐藏线索:GPT-5或完成训练、OpenAI两年内接近AGI1.ARC(AlignmentResearchCenter)是一个非营利性研究机构,其使命是使未来的机器学习系统与人类利益保持一致。ARC的目标是训练AI模型,使其不会操纵、欺骗甚至伤害人类)。OpenAI曾经选择让ARC去测试评估GPT-4会不会主动避免自己被“挂掉”,说明此前必定出现过这种情况。OpenAICEOSamAltman认为人类需要对AI做更多的监管,以符合人类的利益。OpenAI担忧科技竞赛会导致安全标准的下降、不良规范的扩散、AI发展进程的加速,加剧与人工智能相关的社会风险。但是微软CEO和CTO希望OpenAI的模型能尽快让用户用起来。可以肯定的一点是OpenAI和微软在这件事的想法是相悖的。OpenAI雇佣了预测专家,来预测当他们部署了GPT-4之后会带来怎样的风险。“超级预测员”建议将GPT-4部署时间推迟6个月,也就是今年秋季左右;但很显然,OpenAI并没有采纳他们的建议。OpenAI这么做的原因,可能是来自微软的压力。2.OpenAI会协助超越它的公司:OpenAI做出了一个非常大胆的承诺:"如果另一家公司在我们之前实现了接近AGI(通用人工智能),那我们承诺不会跟它做竞争,相反,会协助完成那个项目。但这种情况发生的条件,可能是另一家公司需得在未来两年内,成功接近AGI的机会在一半或以上"而这里提到的AGI,OpenAI和Altam在官方博客中已经给出了定义——普遍比人类更聪明,并且有益于全人类的人工智能系统。3.GPT-4确实已经达到了人类的常识水平。博主在论文中找到了相关数据,在“人类”那一栏中,分数分布在了94-96.5之间。而GPT-4的95.3,便正好在这个区间之间。4.OpenAI在去年年底推出ChatGPT的时候,已经有了GPT-4。GPT-5可能已经完成训练5.像ChatGPT、GitHubCopilot这些工具导致某些工作的自动化。GPT-4的能力可以在某些特定领域中以人类10倍甚至更高的效率来完成。5.OpenAI让GPT-4学会拒绝的方法,叫做基于规则的奖励模型(RBRMs)。这种方法的工作流程:给GPT-4一组要遵守的原则,如果模型遵守了这些原则,那么就会提供相应的奖励。他认为OpenAI正在用人工智能的力量,让AI模型朝着符合人类原则的方向发展。()参考链接:[1]https://www.youtube.com/watch?v=ufQmq6X22rM[2]https://cdn.openai.com/papers/gpt-4.pdf投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

奥特曼透露 GPT-5 相较 GPT-4 有着指数级提升,暗示我们很接近 AGI 了

奥特曼透露GPT-5相较GPT-4有着指数级提升,暗示我们很接近AGI了在今天的YCW24启动会上OpenAI透露了以下最新信息:-奥特曼暗示我们可能已经非常接近通用人工智能。-GPT-5可能相较于GPT-4有着指数级跳跃(GPT-4已经完成两年,至今无人超越)。-建议直接使用最先进的模型,大量的微调和优化是徒劳。-OpenAIAPI将继续变得更快、更可靠、更便宜。-GPT-5将覆盖部分/大部分GPT-4无法做到的内容,不建议围绕解决GPT-4的无能来建立产品业务。投稿:@TNSubmbot频道:@TestFlightCN

封面图片

微软154页研究刷屏:GPT-4能力接近人类 “天网”初现?

微软154页研究刷屏:GPT-4能力接近人类“天网”初现?在通往AGI的路上我们还有多远?微软豪华作者团队发布的154页论文指出,GPT-4已经初具通用人工智能的雏形。GPT-4会演变为通用人工智能吗?Meta首席人工智能科学家、图灵奖得主YannLeCun对此表示质疑。PC版:https://www.cnbeta.com.tw/articles/soft/1351127.htm手机版:https://m.cnbeta.com.tw/view/1351127.htm

封面图片

《通用人工智能的火花:GPT-4早期实验[中文]》

名称:《通用人工智能的火花:GPT-4早期实验[中文]》描述:《通用人工智能的火花:GPT-4早期实验》是3月最重要的一篇论文,引起了广泛的关注和讨论,但是论文长达154页。链接:https://pan.quark.cn/s/f1ef9903c447大小:N标签:#电子书#通用人工智能的火花#quark来自:雷锋频道:@yunpanshare群组:@yunpangroup投稿:@kejiqubot

封面图片

论文投Nature先问问GPT-4 斯坦福实测5000篇 一半意见跟人类评审没差别

论文投Nature先问问GPT-4斯坦福实测5000篇一半意见跟人类评审没差别GPT-4提出的超50%观点与至少一名人类评审员一致;以及超过82.4%的作者都发现GPT-4给的意见很有帮助。那么,这项研究究竟能给我们带来何种启示?结论是:高质量的人类反馈仍然不可替代;但GPT-4可以帮助作者在正式同行评审前改进初稿。具体来看。实测GPT-4论文评审水平为了证明GPT-4的潜力,研究人员首先用GPT-4创建了一个自动pipeline。它可以解析一整篇PDF格式的论文,提取标题、摘要、图表、表格标题等内容来构建提示语。然后让GPT-4提供评审意见。其中,意见和各顶会的标准一样,共包含四个部分:研究的重要性和新颖性、可以被接受的潜在原因或被拒绝的理由以及改进建议。具体实验从两方面展开。首先是定量实验:读已有论文,生成反馈,然后与真实人类观点系统地比较出重叠部分。在此,团队从Nature正刊和各大子刊挑选了3096篇文章,从ICLR机器学习会议(包含去年和今年)挑选了1709篇,共计4805篇。其中,Nature论文共涉及8745条人类评审意见;ICLR会议涉及6506条。GPT-4给出意见之后,pipeline就在match环节分别提取人类和GPT-4的论点,然后进行语义文本匹配,找到重叠的论点,以此来衡量GPT-4意见的有效性和可靠度。结果是:1、GPT-4意见与人类评审员真实意见显著重叠整体来看,在Nature论文中,GPT-4有57.55%的意见与至少一位人类评审员一致;在ICLR中,这个数字则高达77.18%。再进一步仔细比较GPT-4与每一位评审员的意见之后,团队又发现:GPT-4在Nature论文上和人类评审员的重叠率下降为30.85%,在ICLR上降为39.23%。但这与两位人类审稿人之间的重叠率相当:人类在Nature论文上的平均重叠率为28.58%;在ICLR上为35.25%。此外,他们还通过分析论文的等级水平(oral、spotlight、或是直接被拒绝的)发现:对于水平较弱的论文来说,GPT-4和人类审稿人之间的重叠率更高,可以从上面的30%多升到近50%。这说明,GPT-4对水平较差的论文的鉴别能力很高。作者也因此表示,那些需要更实质性修改才能被接收的论文有福了,大伙儿可以在正式提交前多试试GPT-4给出的修改意见。2、GPT-4可以给出非通用反馈所谓非通用反馈,即GPT-4不会给出一个适用于多篇论文的通用评审意见。在此,作者们衡量了一个“成对重叠率”的指标,结果发现它在Nature和ICLR上都显著降低到了0.43%和3.91%。这说明GPT-4是有针对性的。3、能够在重大、普遍问题上和人类观点一致一般来说,人类反馈中较先出现的意见以及多个评审员都提及的意见,最可能代表重要、普遍的问题。在此,团队也发现,LLM更有可能识别出多个评审员一致认可的常见问题或缺陷。也就是说,GPT-4在大面上是过得去的。4、GPT-4给的意见更强调一些与人类不同的方面研究发现,GPT-4评论研究本身含义的频率是人类的7.27倍,评论研究新颖性的可能性是人类的10.69倍。以及GPT-4和人类都经常建议进行额外的实验,但人类更关注于消融实验,GPT-4更建议在更多数据集上试试。作者表示,这些发现表明,GPT-4和人类评审员在各方面的的重视程度各不相同,两者合作可能带来潜在优势。定量实验之外是用户研究。在此共包括308名来自不同机构的AI和计算生物学领域的研究员,他们都在本次研究中上传了各自的论文给GPT-4进行评审。研究团队收集了他们对GPT-4评审意见的真实反馈。总体而言,超过一半(57.4%)的参与者认为GPT-4生成的反馈很有帮助,包括给到一些人类想不到的点。以及82.4%的调查者认为它比至少一些人类评审员的反馈更有益。此外,还有超过一半的人(50.5%)表示,愿意进一步使用GPT-4等大模型来改进论文。其中一人表示,只需要5分钟GPT-4就给出了结果,这个反馈速度真的非常快,对研究人员改善论文很有帮助。当然,作者指出:GPT-4也有它的局限性。最明显的是它更关注于“整体布局”,缺少特定技术领域(例如模型架构)的深度建议。所以,如作者最后总结:人类评审员的高质量反馈还是不可或缺,但大家可以在正式评审前拿它试试水,弥补遗漏实验和构建等方面的细节。当然,他们也提醒:正式评审中,审稿人应该还是独立参与,不依赖任何LLM。一作都是华人本研究一作共三位,都是华人,都来自斯坦福大学计算机科学学院。他们分别是:梁伟欣,该校博士生,也是斯坦福AI实验室(SAIL)成员。他硕士毕业于斯坦福电气工程专业,本科毕业于浙江大学计算机科学。YuhuiZhang,同博士生在读,研究方向为多模态AI系统。清华本科毕业,斯坦福硕士毕业。曹瀚成,该校五年级博士在读,辅修管理科学与工程,同时加入了斯坦福大学NLP和HCI小组。此前毕业于清华大学电子工程系本科。...PC版:https://www.cnbeta.com.tw/articles/soft/1388425.htm手机版:https://m.cnbeta.com.tw/view/1388425.htm

封面图片

GPT-4 整治学术不端:人大 / 浙大团队实测 7000 篇论文,撤稿预测与人类 95% 一致

GPT-4整治学术不端:人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致https://www.ithome.com/0/761/869.htmhttps://arxiv.org/abs/2403.16851(英文)研究表明,GPT-4的总体预测结果(包含撤稿预测和非撤稿预测)与人工预测结果的一致性最高,高达约95%!其次是GPT-3.5和SVM模型,其一致性超过80%。而关键词方法与其他机器学习模型的一致性则在46%-64%之间,预测效果一般。在精确率方面,同样是GPT-4的精确率最高:GPT-4预测会撤稿的论文中,近70%的在人工预测中同样会撤稿。而其他模型的预测精确率均远低于GPT-4。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人