OpenAI 发布了 35 页论文，论文称，对于大约 80% 的美国人来说，至少有 10% 的工作任务会受到 GPT 的影响。在

OpenAI发布了35页论文，论文称，对于大约80%的美国人来说，至少有10%的工作任务会受到GPT的影响。在大约19%的岗位中，有50%的任务会在某种程度上被AI自动化。而且，这种影响几乎横跨所有行业。学历越高，收入越高，"白领"做的工作AI越擅长，意味着被AI取代的可能性更大。OpenAI列出了不被AI影响的34大"铁饭碗"，告诉蓝领这些人你们是"安全的"。完全不受LLM（大语言模型）影响的职业主要是体力劳动者。这恰恰与莫拉维克悖论非常一致，即能够可靠地实现多数体力劳动自动化的机器人技术还需要许多年。最容易受到LLM影响的职业有：报税员、口译员和笔译员、调查研究人员、校对和抄写员、作家。其中，暴露率100%的工作包括数学家、报税员、量化金融分析师、作家、网络和数字界面设计师。甚至还有区块链工程师。暴露率指的是访问GPT，或GPT驱动的系统，是否会使人类执行一项任务所需的时间减少至少50%。论文指出，薪酬越高，被LLM自动化的机会越高。不过好消息是，那些需要科学和批判思维能力的工作暴露率较低。按工作区域划分，那些拥有学士学位或更高学位的人，比没有学士学位的人更容易接触到GPT。()()投稿：@ZaiHuabot频道：@TestFlightCN

在Telegram中查看

相关推荐

OpenAI 等机构上周发布论文，研究 GPT 这类大语言模型对劳动力市场的潜在影响。

OpenAI等机构上周发布论文，研究GPT这类大语言模型对劳动力市场的潜在影响。个人笔记研究方法上，文章主要衡量某个具体工作任务对GPT的「暴露」程度(exposure)。「暴露」指利用GPT和延伸技术，可以把完成一个具体任务的时间缩短50%以上。需留意，「暴露」不意味着这些任务能被GPT独立完成，研究时也没区分“劳动替代/劳动增强”，所以数据不能完全对应「人类被GPT抢工作而下岗」。文章初步结论1）约19%的工作者，将面临50%+的具体工作任务暴露于GPT；约80%的工作者，将面临10%+的任务暴露于GPT；各职业中位数暴露程度为15%。2）高收入、高门槛、需要高学历的工作，对GPT暴露程度更高。3）如果任务需要编程、写作，暴露程度会更高；如果任务高度依赖于科学素养和批判性思维，暴露程度会更低。（简而言之，作者做研究的暴露程度低，我写这篇笔记的暴露程度高）4）行业维度，数据处理、信息处理和医院相关行业暴露程度高。5）哪些职业100%的工作任务暴露于GPT？人类专家认为包括税务人员、金融量化分析师、写作者、UI设计师、数学家（？）等15种职业；GPT认为包括会计师和审计师、记者和新闻工作者、法律秘书和行政助理等86种职业。文章认为，GPT与印刷术、蒸汽机类似，属于通用技术(general-purposetechnologies)。通用技术特点是扩散广、不断改进、激发新的创新，对经济、社会和政策影响显著。要实现通用技术的全部潜力，需要各界广泛参与、共同发明。一言以蔽之：挑战与机遇并存（你够了论文链接：https://arxiv.org/abs/2303.10130

OpenAI最新论文讲了GPT对美国劳动力的影响。-大约80%的美国劳动力可能至少有10%的工作任务受到GPT的影响-大约19%

GPT-4论文竟有隐藏线索：GPT-5或完成训练、OpenAI两年内接近AGI

GPT-4论文竟有隐藏线索：GPT-5或完成训练、OpenAI两年内接近AGI1.ARC(AlignmentResearchCenter)是一个非营利性研究机构，其使命是使未来的机器学习系统与人类利益保持一致。ARC的目标是训练AI模型，使其不会操纵、欺骗甚至伤害人类）。OpenAI曾经选择让ARC去测试评估GPT-4会不会主动避免自己被“挂掉”，说明此前必定出现过这种情况。OpenAICEOSamAltman认为人类需要对AI做更多的监管，以符合人类的利益。OpenAI担忧科技竞赛会导致安全标准的下降、不良规范的扩散、AI发展进程的加速，加剧与人工智能相关的社会风险。但是微软CEO和CTO希望OpenAI的模型能尽快让用户用起来。可以肯定的一点是OpenAI和微软在这件事的想法是相悖的。OpenAI雇佣了预测专家，来预测当他们部署了GPT-4之后会带来怎样的风险。“超级预测员”建议将GPT-4部署时间推迟6个月，也就是今年秋季左右；但很显然，OpenAI并没有采纳他们的建议。OpenAI这么做的原因，可能是来自微软的压力。2.OpenAI会协助超越它的公司：OpenAI做出了一个非常大胆的承诺："如果另一家公司在我们之前实现了接近AGI（通用人工智能），那我们承诺不会跟它做竞争，相反，会协助完成那个项目。但这种情况发生的条件，可能是另一家公司需得在未来两年内，成功接近AGI的机会在一半或以上"而这里提到的AGI，OpenAI和Altam在官方博客中已经给出了定义——普遍比人类更聪明，并且有益于全人类的人工智能系统。3.GPT-4确实已经达到了人类的常识水平。博主在论文中找到了相关数据，在“人类”那一栏中，分数分布在了94-96.5之间。而GPT-4的95.3，便正好在这个区间之间。4.OpenAI在去年年底推出ChatGPT的时候，已经有了GPT-4。GPT-5可能已经完成训练5.像ChatGPT、GitHubCopilot这些工具导致某些工作的自动化。GPT-4的能力可以在某些特定领域中以人类10倍甚至更高的效率来完成。5.OpenAI让GPT-4学会拒绝的方法，叫做基于规则的奖励模型（RBRMs）。这种方法的工作流程：给GPT-4一组要遵守的原则，如果模型遵守了这些原则，那么就会提供相应的奖励。他认为OpenAI正在用人工智能的力量，让AI模型朝着符合人类原则的方向发展。()参考链接：[1]https://www.youtube.com/watch?v=ufQmq6X22rM[2]https://cdn.openai.com/papers/gpt-4.pdf投稿：@ZaiHuabot频道：@TestFlightCN

19 个受 GPT 影响最大的职业

19个受GPT影响最大的职业OpenAI引入了一个概念——暴露（Exposure）。它的衡量标准是，使用ChatGPT或相关工具，在保证质量的情况下，能否减少完成工作的时间。人类标注的完全暴露（即暴露程度100%）的职业，包括作家、数学家、报税员、金融量化分析师、网页与数字界面设计师等。GPT-4标注的完全暴露的职业，包括数学家、会计与审计、新闻从业者、临床数据助理、法律秘书和行政助理、气候变化政策分析师等。此外，平面设计师、投资基金经理、搜索营销策略师等职业方差较大，说明各组标注的结果相差较大。还有一个有趣的结论是，收入越高的，越可能受到影响。部分原因是，这部分人群更可能接触和需要使用ChatGPT和相关工具。但这只是一个笼统的概括。研究结果进一步说明，科学和批判性思维技能，与暴露程度呈强烈负相关，这表明需要这些技能的职业，不太可能受到当前语言模型的影响。————会计是不会被gpt取代的，因为gpt没法坐牢……

OpenAI最新“神”操作：让GPT-4去解释GPT-2的行为

OpenAI最新“神”操作：让GPT-4去解释GPT-2的行为即：让一个AI“黑盒”去解释另一个AI“黑盒”。工作量太大，决定让GPT-4去解释GPT-2OpenAI之所以做这项研究的原因，在于近来人们对AI伦理与治理的担忧：“语言模型的能力越来越强，部署也越来越广泛，但我们对其内部工作方式的理解仍然非常有限。”由于AI的“黑盒”性质，人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法，也难以区分其正确性，因而“可解释性”是亟待重要的一个问题。AI的发展很大程度上是在模仿人类，因而大模型和人脑一样，也由神经元组成，它会观察文本规律进而影响到输出结果。所以想要研究AI的“可解释性”，理论上要先了解大模型的各个神经元在做什么。按理来说，这本应由人类手动检查，来弄清神经元所代表的数据特征——参数量少还算可行，可对于如今动辄百亿、千亿级参数的神经网络，这个工作量显然过于“离谱”了。于是，OpenAI灵机一动：或许，可以用“魔法”打败“魔法”？“我们用GPT-4为大型语言模型中的神经元行为自动编写解释，并为这些解释打分。”而GPT-4首次解释的对象是GPT-2，一个OpenAI发布于4年前、神经元数量超过30万个的开源大模型。让GPT-4“解释”GPT-2的原理具体来说，让GPT-4“解释”GPT-2的过程，整体分为三个步骤。（1）首先，让GPT-4生成解释，即给出一个GPT-2神经元，向GPT-4展示相关的文本序列和激活情况，产生一个对其行为的解释。如上图所示，GPT-4对GPT-2该神经元生成的解释为：与电影、人物和娱乐有关。（2）其次，再次使用GPT-4，模拟被解释的神经元会做什么。下图即GPT-4生成的模拟内容。（3）最后，比较GPT-4模拟神经元的结果与GPT-2真实神经元的结果，根据匹配程度对GPT-4的解释进行评分。在下图展示的示例中，GPT-4得分为0.34。通过这样的方法，OpenAI共让GPT-4解释了GPT-2中的307200个神经元，其中大多数解释的得分很低，只有超过1000个神经元的解释得分高于0.8。在官博中，OpenAI承认目前GPT-4生成的解释并不完美，尤其在解释比GPT-2规模更大的模型时，效果更是不佳：“可能是因为后面的layer更难解释。”尽管绝大多数解释的得分不高，但OpenAI认为，“即使GPT-4给出的解释比人类差，但也还有改进的余地”，未来通过ML技术可提高GPT-4的解释能力，并提出了三种提高解释得分的方法：对解释进行迭代，通过让GPT-4想出可能的反例，根据其激活情况修改解释来提高分数。使用更大的模型来进行解释，平均得分也会上升。调整被解释模型的结构，用不同的激活函数训练模型。值得一提的是，以上这些解释数据集、可视化工具以及代码，OpenAI都已在GitHub上开源发布：“我们希望研究界能开发出新技术以生成更高分的解释，以及更好的工具来使用解释探索GPT-2。”（GitHub地址：https://github.com/openai/automated-interpretability）“再搞下去，AI真的要觉醒了”除此之外，OpenAI还提到了目前他们采取的方法有很多局限性，未来需要一一攻克：GPT-4给出的解释总是很简短，但神经元可能有着非常复杂的行为，不能简洁描述。当前的方法只解释了神经元的行为，并没有涉及下游影响，希望最终能自动化找到并解释能实现复杂行为的整个神经回路。只解释了神经元的行为，并没有解释产生这种行为的背后机制。整个过程都是相当密集的计算，算力消耗很大。在博文的最后，OpenAI展望道：“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而，在这些技术能够揭露不诚实等行为之前，我们还有很长的路要走。”对于OpenAI的这个研究成果，今日在国内外各大技术平台也引起了广泛关注。有人在意其得分不佳：“对GPT-2的解释都不行，就更不知道GPT-3和GPT-4内部发生了什么，但这才是许多人更关注的答案。”有人感慨AI进化的方式愈发先进：“未来就是用AI完善AI模型，会加速进化。”也有人担心AI进化的未来：“再搞下去，AI真的要觉醒了。”那么对此，你又有什么看法呢？...PC版：https://www.cnbeta.com.tw/articles/soft/1359101.htm手机版：https://m.cnbeta.com.tw/view/1359101.htm

论文投Nature先问问GPT-4 斯坦福实测5000篇一半意见跟人类评审没差别

论文投Nature先问问GPT-4斯坦福实测5000篇一半意见跟人类评审没差别GPT-4提出的超50%观点与至少一名人类评审员一致；以及超过82.4%的作者都发现GPT-4给的意见很有帮助。那么，这项研究究竟能给我们带来何种启示？结论是：高质量的人类反馈仍然不可替代；但GPT-4可以帮助作者在正式同行评审前改进初稿。具体来看。实测GPT-4论文评审水平为了证明GPT-4的潜力，研究人员首先用GPT-4创建了一个自动pipeline。它可以解析一整篇PDF格式的论文，提取标题、摘要、图表、表格标题等内容来构建提示语。然后让GPT-4提供评审意见。其中，意见和各顶会的标准一样，共包含四个部分：研究的重要性和新颖性、可以被接受的潜在原因或被拒绝的理由以及改进建议。具体实验从两方面展开。首先是定量实验：读已有论文，生成反馈，然后与真实人类观点系统地比较出重叠部分。在此，团队从Nature正刊和各大子刊挑选了3096篇文章，从ICLR机器学习会议（包含去年和今年）挑选了1709篇，共计4805篇。其中，Nature论文共涉及8745条人类评审意见；ICLR会议涉及6506条。GPT-4给出意见之后，pipeline就在match环节分别提取人类和GPT-4的论点，然后进行语义文本匹配，找到重叠的论点，以此来衡量GPT-4意见的有效性和可靠度。结果是：1、GPT-4意见与人类评审员真实意见显著重叠整体来看，在Nature论文中，GPT-4有57.55%的意见与至少一位人类评审员一致；在ICLR中，这个数字则高达77.18%。再进一步仔细比较GPT-4与每一位评审员的意见之后，团队又发现：GPT-4在Nature论文上和人类评审员的重叠率下降为30.85%，在ICLR上降为39.23%。但这与两位人类审稿人之间的重叠率相当：人类在Nature论文上的平均重叠率为28.58%；在ICLR上为35.25%。此外，他们还通过分析论文的等级水平（oral、spotlight、或是直接被拒绝的）发现：对于水平较弱的论文来说，GPT-4和人类审稿人之间的重叠率更高，可以从上面的30%多升到近50%。这说明，GPT-4对水平较差的论文的鉴别能力很高。作者也因此表示，那些需要更实质性修改才能被接收的论文有福了，大伙儿可以在正式提交前多试试GPT-4给出的修改意见。2、GPT-4可以给出非通用反馈所谓非通用反馈，即GPT-4不会给出一个适用于多篇论文的通用评审意见。在此，作者们衡量了一个“成对重叠率”的指标，结果发现它在Nature和ICLR上都显著降低到了0.43%和3.91%。这说明GPT-4是有针对性的。3、能够在重大、普遍问题上和人类观点一致一般来说，人类反馈中较先出现的意见以及多个评审员都提及的意见，最可能代表重要、普遍的问题。在此，团队也发现，LLM更有可能识别出多个评审员一致认可的常见问题或缺陷。也就是说，GPT-4在大面上是过得去的。4、GPT-4给的意见更强调一些与人类不同的方面研究发现，GPT-4评论研究本身含义的频率是人类的7.27倍，评论研究新颖性的可能性是人类的10.69倍。以及GPT-4和人类都经常建议进行额外的实验，但人类更关注于消融实验，GPT-4更建议在更多数据集上试试。作者表示，这些发现表明，GPT-4和人类评审员在各方面的的重视程度各不相同，两者合作可能带来潜在优势。定量实验之外是用户研究。在此共包括308名来自不同机构的AI和计算生物学领域的研究员，他们都在本次研究中上传了各自的论文给GPT-4进行评审。研究团队收集了他们对GPT-4评审意见的真实反馈。总体而言，超过一半（57.4%）的参与者认为GPT-4生成的反馈很有帮助，包括给到一些人类想不到的点。以及82.4%的调查者认为它比至少一些人类评审员的反馈更有益。此外，还有超过一半的人（50.5%）表示，愿意进一步使用GPT-4等大模型来改进论文。其中一人表示，只需要5分钟GPT-4就给出了结果，这个反馈速度真的非常快，对研究人员改善论文很有帮助。当然，作者指出：GPT-4也有它的局限性。最明显的是它更关注于“整体布局”，缺少特定技术领域（例如模型架构）的深度建议。所以，如作者最后总结：人类评审员的高质量反馈还是不可或缺，但大家可以在正式评审前拿它试试水，弥补遗漏实验和构建等方面的细节。当然，他们也提醒：正式评审中，审稿人应该还是独立参与，不依赖任何LLM。一作都是华人本研究一作共三位，都是华人，都来自斯坦福大学计算机科学学院。他们分别是：梁伟欣，该校博士生，也是斯坦福AI实验室（SAIL）成员。他硕士毕业于斯坦福电气工程专业，本科毕业于浙江大学计算机科学。YuhuiZhang，同博士生在读，研究方向为多模态AI系统。清华本科毕业，斯坦福硕士毕业。曹瀚成，该校五年级博士在读，辅修管理科学与工程，同时加入了斯坦福大学NLP和HCI小组。此前毕业于清华大学电子工程系本科。...PC版：https://www.cnbeta.com.tw/articles/soft/1388425.htm手机版：https://m.cnbeta.com.tw/view/1388425.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人