RT 宝玉OpenAI最新的论文：《Let’s Verify Step by Step》

RT 宝玉 OpenAI最新的论文：《Let’s Verify Step by Step》 OpenAI训练了一个模型，通过奖励每一个正确的推理步骤（“过程监督”），而不仅仅是奖励正确的最终结果（“结果监督”），在数学问题解决方面达到了新的最高水平。… AK: Open AI releases paper + dataset Let’s Verify Step by Step trained a model to achieve a new state-of-the-art in mathematical problem solving by rewarding each correct step of reasoning (“process supervision”) instead of simply rewarding the correct final answer (“outcome…

在Telegram中查看

相关推荐

OpenAI最新的论文：《Let’s Verify Step by Step》

最近微软和谷歌都出了AI相关教程，谷歌的是Generative AI learning path（

最近微软和谷歌都出了AI相关教程，谷歌的是Generative AI learning path（以上我收藏在提示工程资料导航站上：如果你和我一样日理万机，只能收藏上面的教程作为心理安慰，其实也可以看下下面这个不到一小时的视频去了解下大模型基本原理： OPENAI创始成员在MS BUILD2023上的演讲State of GPT （今天又看了一遍，人工总结了几点我觉得比较有意思的部分： 1) 人类反馈强化学习RLHF比较难，不建议新手碰，LORA是个不错的技术，下半年推出的GPT微调接口是不是和LORA有关系？ 2) GPT本质上是在上下文(工作记忆)影响下，预测下一个token，它不知道对错，没有价值观，不会反思回溯。即心理学家卡尼曼的书《思考：快与慢》中的系统I：直觉本能式给结果，不像系统II：理性思考。所以GPT其实推理能力不太好，需要提示工程方法来引导它做慢思考，比如用思维链COT，或最新的思维树TOT等。我的感觉是GPT推理虽然不好，但是有的，看上去是在预测下一个token，其实是使用了深层能力。类似人类的直觉隐含了深层的知识，有时候比慢思考更正确。我记得的例子有：将军得到敌人从某方向进攻的情报，但将军的直觉是敌人佯攻，真实意图是从其它地方进攻。一个武林高手，进入一个幽静的陌生环境，能用直觉感觉到有埋伏，然后先拔刀做准备。 3）思维链等方法反映了目前大模型的限制，并不自然，以后能不能用API包装下使用？或者GPT-5 实现系统II的慢思考？ 4） Let’s work this out in a step by step way. 比 let’s think step by step. 效果好 5）为什么prompt中给GPT设定专家角色或IQ 120高能力比不设定效果好？简单看为检索信息，GPT中有普通答案也有专家答案，你指定它为专家，它就找专家的答案给你 6） Retrieval-Augmented LLMs，检索增强大模型，即通过检索在Prompt的上下文Context中提供尽可能多的任务相关信息,那它的输出就会越好。

OpenAI CEO奥尔特曼称AGI会让全球GDP翻倍、理解前董事会的焦虑

OpenAI CEO奥尔特曼称AGI会让全球GDP翻倍、理解前董事会的焦虑就GPT-5开发进展，奥尔特曼称，开发GPT-5还需一些时间，希望GPT-5取得重大飞跃，而GPT-4还会出现很多错误，犯一些6岁小孩都不会犯的错误。就人工智能的前景，奥尔特曼表示，人工智能是巨大的生产力驱动力，AGI（通用人工智能）可以创造100万亿美元的财富，可以让全球的GDP翻倍，或许只需要10年完成翻倍。近期另有一些争议事件围绕着OpenAI，例如，OpenAI与苹果合作后，特斯拉CEO马斯克对苹果将用户数据交给外部公司的安全性问题表示质疑，称不允许苹果产品进入公司。就“不允许苹果产品进入公司”的言论，奥尔特曼表示“我怀疑这件事是否会发生，但我没有预料到（会如此）”，他认为这不代表其他科技公司的普遍反应，而更像是马斯克的反应。奥尔特曼也对去年底他被董事会解雇一事表达看法。“这是非常痛苦的经历，但我确实理解前董事会为何会如此焦虑，前董事会成员对人工智能的持续发展感到紧张，对我和我们所做的事有一些看法，尽管我非常强烈地反对他们的想法。他们是一些对未来感到紧张并试图弄清楚如何取得好结果的好人。事件发生后，我不得不在震惊的情绪下收拾残局。”奥尔特曼表示，现在新董事会成员经验丰富、（想法）富有建设性且乐于提供帮助。奥尔特曼谈及人们对人工智能安全的焦虑。“（人工智能）将导致社会发生巨大的变化，我认为它与其他技术趋势不同。有一种可以理解的焦虑感，来自人们对人工智能将走向何方的疑虑。即便我们解决了每一个有关滥用的问题、找到了完美的监管机制，当人工智能工具变得越来越强大，当计算机不仅能理解我们、帮助我们的时候，生活会是样子？”奥尔特曼表示，或许未来可以让计算机去运营一家企业。OpenAI做了很多工作来保障人工智能的安全性，后续还将继续争取人们对人工智能系统的信任。另一些与人工智能相关的争议事件引起广泛关注，例如，此前美国演员斯嘉丽·约翰逊指控ChatGPT使用类似她声音的AI语音，奥尔特曼此前曾回应称，他不认为那是约翰逊的声音。奥尔特曼此次表态，整个行业对于人工智能技术被用来伤害个人的事情，需要采取非常强硬的立场。“人工智能技术达到能‘换脸’的水平是不可避免的，但这是我们社会监督和政府监管可以发挥作用的地方。对于‘换脸’、虚假信息等不好的使用，我们需要划一条界线。”奥尔特曼称。越来越多由人类创造的数据被用于人工智能训练，为了让大模型变得更加智能，是否人工智能公司将对数据越来越“贪得无厌”，并持续引发关于合理使用的争议？奥尔特曼对此回应称，目前还不确定未来如何让大模型变得越来越聪明，包括是否永远需要越来越多的数据，需要找到新的模式来获得数据并训练模型。至于如何让计算机获得正确的价值观，奥尔特曼表示，虽然现在还不能说完全解决了人工智能对齐的问题，但在目前人工智能系统中，让系统学会如何按一套价值观行事的效果比他想象的更好。现在更难的问题是，谁来决定价值观，社会层面可以讨论人工智能的价值观应该是什么。奥尔特曼表示，GPT-4花了约8个月的时间进行红队测试和外部咨询，未来的大模型可能需要花更多时间。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人