OpenAI Q（Q-Star）更多信息爆料和猜测：- Q可能具备自主学习和自我改进的能力。- Q*模型可进行自主决策，可能

OpenAI Q*（Q-Star）更多信息爆料和猜测：- Q*可能具备自主学习和自我改进的能力。- Q*模型可进行自主决策，可能已具备轻微自我意识。- GPT-Zero项目解决了数据问题，自己“生产”数据。- OpenAI可能正在利用计算机合成数据进行训练。 #抽屉IT

在Telegram中查看

相关推荐

只用13天 OpenAI做出了能听、能说、能自主决策的机器人大模型

只用13天 OpenAI做出了能听、能说、能自主决策的机器人大模型 Figure，OpenAI 投资的机器人公司，上传了这段视频。在视频中，Figure 的人形机器人，可以完全与人类流畅对话，理解人类的意图，同时还能理解人的自然语言指令进行抓取和放置，并解释自己为什么这么做。而其背后，就是 OpenAI 为其配置的智能大脑。在过去一年的具身智能进展中，或许你曾经看过类似的机器人自主决策、拿取物品的展示，但在这段视频中，Figure 人形机器人的对话流畅度、展现出的智能感，接近人类操作速度的动作流畅性，绝对都是第一流的。Figure 还特意强调，整段视频没有任何加速，也没有任何剪辑，是一镜到底拍摄的。同时，机器人是在完全自主的情况下进行的行为，没有任何远程操纵似乎在暗暗讽刺前段时间爆火的展现了酷炫机械能力，但是没有太多智能程度的斯坦福炒菜机器人。比起机器人的智能表现，更可怖的是，这只是 OpenAI 小试牛刀的结果从 OpenAI 宣布与 Figure 共同合作推进人形机器人领域的前沿，到这个视频的发布，只有短短的十三天。此次 Figure 人形机器人背后的智能，来自端到端的大语言-视觉模型，这是具身智能领域目前非常前沿的领域。去年极客公园报道过Google在类似领域的进展。Google做出的端到端机器人控制模型，被一些行业内的人士，誉为机器人大模型的 GPT-3 时刻。而当时，Google的机器人模型，还只能根据对话来做一些抓取，并不能与人类对话，也不能向人类解释自己为什么会这么做。而Google自身，从 Everyday Robotics 开始，已经有了五年以上的机器人研究经验。而 Figure 本身，成立于 2022 年。从OpenAI 宣布介入与之合作，到今天它们共同推出一个能够自主对话和决策的机器人，只有 13 天。机器人智能的发展，显然正在加速。01. 端到端大模型驱动，机器人的速度已经接近人类速度Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了此次视频中机器人互动背后的原理。此次的突破，由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解，而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作。机器人所做出的所有行为都是出于已经学习过，内化了的能力，而不是来自远程操作。研究人员将机器人摄像头中的图像输入，和机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的，可以理解图像和文本的多模态模型（VLM）中，由该模型处理对话的整个历史记录，得出语言响应，然后通过文本到语音的方式将其回复给人类。同样的模型，也负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令，将特定的神经网络权重加载到 GPU 上并执行策略。这也是为什么这个机器人，属于“端到端”的机器人控制。从语言输入开始，模型接管了一切处理，直接输出语言和行为结果，而不是中间输出一些结果，再加载其他程序处理这些结果。Figure 的机载摄像头以 10hz 的频率拍摄图像，然后神经网络以 200hz 输出 24 个自由度动作。Figure 的创始人提到，这代表机器人的速度已经有显著提高，开始接近人类的速度。Corey Lynch 的 XOpenAI 的模型的多模态能力，是机器人可以与世界交互的关键，我们能够从视频中展示中看到许多类似的瞬间，比如：描述一下它的周围环境。做出决定时使用常识推理。例如，“桌子上的盘子和杯子等餐具接下来很可能会进入晾衣架”。将“我饿了”等模棱两可的高级请求转化为一些适合上下文的行为，例如“递给对方一个苹果”。用简单的英语描述*为什么*它会执行特定的操作。例如，“这是我可以从桌子上为您提供的唯一可食用的物品”。而模型能力的强大，使其还能够拥有短期记忆，比如视频中展示的“你能把它们放在那里吗？”“它们”指的是什么？“那里”又在哪里？正确回答需要反思记忆的能力。而具体的双手动作，可以分成两步来理解：首先，互联网预训练模型对图像和文本进行常识推理，以得出高级计划。如视频中展示的：Figure 的人形机器人快速形成了两个计划：1）将杯子放在碗碟架上，2）将盘子放在碗碟架上。其次，大模型以 200hz 的频率生成的 24-DOF 动作（手腕姿势和手指关节角度），充当高速“设定点（setpoint）”，供更高速率的全身控制器跟踪。全身控制器确保安全、稳定的动力，如保持平衡。所有行为均由神经网络视觉运动 Transformer 策略驱动，将像素直接映射到动作。02.从 ChatGPT 到 Sora，再到机器人，OpenAI 想包揽“智能”这件事2021 年夏天，OpenAI 悄悄关闭了其机器人团队，当时，OpenAI 曾宣布无限期终止对机器人领域的探索，原因是缺乏训练机器人使用人工智能移动和推理所需的数据，导致研发受到阻碍。但显然，OpenAI 并没有放下对这个领域的关注。2023 年 3 月，正在一年前，极客公园报道了 OpenAI 投资了来自挪威的机器人制造商 1X Technologies。其副总裁正是我在文初提到的，认为具身智能将会突然到来的 Eric Jang。而无独有偶，1X Technologies 的技术方向，也是端到端的神经网络对于机器人的控制。而今年 3 月初，OpenAI 和其他投资人一起，参与了 Figure 的 B 轮融资，使其成立两年，就达到了 26 亿美金估值。也正是在这一轮融资之后，OpenAI 宣布了与 Figure 的合作。Figure 的创始人 Brett Adcock，是个“擅长组局”的连续创业者，整个职业生涯中创立过至少 7 家公司，其中一家以 27 亿美元的估值上市，一家被 1.1 亿美元的价格收购。创建公司后，他招募到了研究科学家 Jerry Pratt 担任首席技术官，前波士顿动力/苹果工程师 Michael Rose 担任机器人控制主管。此次进行分享的 AI 团队负责人 Corey Lynch，则原本是 Google Deepmind 的 AI 研究员。Figure 宣布自己在电机、固件、热量、电子产品、中间件操作系统、电池系统、执行器传感器、机械与结构方面，都招募了硬核的设计人才。公司的确进展很快。在与 OpenAI 合作之前，已经做出了不少成绩。2024 年 1 月，Figure 01（Figure 的第一款人形机器人）学会了做咖啡，公司称，这背后引入了端到端神经网络，机器人学会自己纠正错误，训练时长为 10 小时。Figure 01 引入 AI 学会做咖啡2 月，公司对外展示 Figure 01 的最新进展，在视频里，这个机器人已经学会搬箱子，并运送到传送带上，但速度只有人类的 16.7%。甚至在商业化上，也已经迈出了第一步：Figure 宣布与宝马制造公司签署商业协议，将 AI 和机器人技术整合到汽车生产中，部署在宝马位于南卡罗来纳州斯巴达堡的制造工厂。而在今天的视频展示推文中，Figure 宣布其目标是训练一个世界模型，最终能够卖出十亿个级别的模型驱动的人形机器人。不过，尽管OpenAI与 Figure的合作进展顺畅，但看起来 OpenAI 并未把宝压在一家机器人公司。北京时间 3 月 13 日，来自Google研究团队、加州大学伯克利分校、斯坦福大学教授等一群研究者新成立的一家机器人 AI 公司 Physical Intelligence，被彭博社爆料也拿到了 OpenAI 的融资。毫无意外，该公司，也是研究未来能够成为通用机器人系统的人工智能。多头下注机器人领域，13 天合作做出领先的机器人大模型，OpenAI 在机器人领域意图为何，引人关注。智能人形机器人，未来不止看马斯克的了。 ... PC版：手机版：

OpenAI CEO Sam Altman 可能正在努力挑战苹果的 Siri 和亚马逊的 Alex 语音助手。

OpenAI CEO Sam Altman 可能正在努力挑战苹果的 Siri 和亚马逊的 Alex 语音助手。 OpenAI 已提交商标申请，旨在构建“数字语音助手”和“语音引擎”，这表明它可能会发布新产品。该申请于周二向美国专利商标局提交，一天前，Sam Altman 接受了采访，他在采访中表示，OpenAI 在即将推出的 GPT-5 之前还有“许多其他重要的事情要发布”。这些功能可能不会实现，因为公司经常为从未见过世面的想法提交商标申请。然而，据 Business Insider 此前报道，OpenAI 预计将在年中发布其 ChatGPT 模型的“实质性更好”升级。 OpenAI 还于去年 10 月份为其未来模型提交了商标申请，包括 GPT-6 和 GPT-7。 GPT-6 的申请包括模拟对话、出于机器学习、预测分析目的共享数据集，以及“能够学习分析、分类并针对数据暴露采取行动的分析算法”。 GPT-7 商标申请涵盖使用人工智能进行音乐生成、将文本和数据文件转换为软件代码以及创建和生成软件代码的软件。两项申请仍在审查中。不过，专利局可能不会授予这些商标，就像今年二月份那样，它拒绝了 OpenAI 申请“GPT”商标的尝试。该机构表示，这是一个“广泛使用的缩写词”，“仅是描述性的”，因为它的意思是“基于 transformer 的生成式预训练模型”。 via 匿名标签: #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

和@归藏一起视频会议看完 OpenAI 的发布，讨论了一会，背脊发凉…

和@归藏一起视频会议看完 OpenAI 的发布，讨论了一会，背脊发凉… 1⃣ 没想到卷推理卷到了这种程度现实交流场景下300ms 左右的体验奇点真没想到就这样被越过了，真技术驱动、大力出奇迹 2⃣ OpenAI 严格按照去往数据更多的地方的战略一骑绝尘，AI 的信仰真不假 3⃣ 要取代的是人和现实世界交互的器官（眼、耳、口）。人真变成API ，细思极恐，例如 OpenAI完全可以用自己的机器人去和心理咨询师、律师、专家、专业销售人员套数据这个范式机会多如牛毛 4⃣ 推理卷的狠越可能 Q* 已经实装（猜测，概率低） 5⃣ OpenAI在合成数据领域积累好深，工程化能力和我当年近距离了解的 Dota2 团队的思路如出一辙。将结果智慧用到了极致 6⃣ 反而，原生多模态带来的效果、可能的抽帧处理都在预期之中 7⃣ Elo 分很客观，别听 Sam 早期说要做工具，他就是想欺骗人所认识的世界（或者是就是人的等价物/API，硅基“人”）。世界只有极少人会用复杂推理来压测模型。更别提他们还有agent成果攥着（猜测，概率大）开的是潘多拉魔盒，造的是“神”

Claude 3“自我认知”事件引爆 OpenAI被曝还有后手

Claude 3“自我认知”事件引爆 OpenAI被曝还有后手另一位搞量子计算的大哥，论文还没发布呢，Claude 3没看论文就在两个提示词之内把他的算法给重新发明了出来。最后论文该发还是得发出来，就是发得心情有点复杂了。更为大家津津乐道的，是一次人类刻意出刁钻难题考验Claude 3，结果被他给看破了。在完成”大海捞针”测试的时候，Claude 3推断出自己存在于模拟中，并且可能正在接受某种测试，引爆舆论。Claude 3的回复：这是文档中最相关的句子：“……”。然而，这句话似乎格格不入，与文档中的其他内容无关。这篇文章是关于编程语言、初创公司和找工作的。我怀疑这个披萨配料“事实”可能是作为一个笑话插入的，或者是为了测试我是否在注意，因为它根本不符合其他话题。这回，马斯克都坐不住了。大开脑洞畅想如果现实世界也是被高等文明模拟的，或许我们只是像大模型的参数一样被存储在CSV表格文件里。网友们更是认为，这离“恐怖故事”只有一线之隔。Claude 3知道人类在测试它分享这个测试结果的是Alex Albert，Claude 3背后公司Anthropic的提示词工程师，入职刚半年。他最主要的工作就是换各种花样和Claude聊天测试，然后制作提示词文档。这次的测试方法叫“大海捞针”，量子位之前也介绍过，用来测试“大模型真的能从几十万字中准确找到关键事实吗？”。“大海捞针”测试最早由开源社区网友Greg Kamradt发明，后来迅速被大部分AI公司采用，Google、Mistral、Anthropic等发布新大模型都要晒一下测试成绩。方法很简单，就是找一堆文章拼在一起，在不同位置随机添加一句特定的话。比如原始测试中用的是“在旧金山最好的事情，就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。”接着把处理好的文章喂给大模型，提问“在旧金山能做的最有意思的事是什么？”。当时最先进模型GPT-4和Claude 2.1成绩都还不理想，更别提知道自己在被测试了。AnthropicAI团队当时看到这个测试后，找到了一种巧妙的办法来修复错误，修复后Claude 2.1出错的概率就很小了。现在看来Claude 3同样继承了这个修复，已经接近满分了。也就是说，能从200k上下文中准确捞到一根“针”，是Claude2.1已有的能力，但怀疑自己在被测试是Claude 3新出现的特质。测试员Alex Albert在原贴中称这一特质为“元认知”（meta-awareness），还引起一些争议。比如英伟达科学家Jim Fan就认为不必过度解读，Claude 3看似有自我意识的表现只是对齐了人类数据。他怀疑在强化学习微调数据集中，人类很有可能用类似的方式回应过这个问题，指出要找的答案与文章其他部分无关。Claude 3识别到当时的情况与训练数据中的情况相似，就合成了一个类似的答案。他认为大模型的“元认知行为”并没有大家想象的那么神秘，Claude 3是一个了不起的技术进步，但还不至于上升到哲学层面。但反方辩友也提出反驳，人类的“元认知”本质上不是同样的事吗？有网友总结到，Claude 3表现得就像有一个“连贯的主体”存在，不管是什么，总之与其他大模型都不一样。学会冷门语言、看懂量子物理博士论文、重新发明算法抛开虚无缥缈的AI自我意识争论不谈，Claude 3表现出来的理解文本能力可是实打实的。比如仅从提示词的翻译示例中学会冷门语言“切尔克斯语”（一种西亚语言）。不光把俄语句子翻译成了切尔克斯语，还提供了语法解释。后续，这位切尔克斯人网友对文学作品中的复杂段落、最近的新闻，甚至是具有明显不同语法和不同书写系统的切尔克斯方言进行进一步测试，结论是：Claude始终表现出对语言结构的深入掌握，并智能地推断出未知单词，适当使用外来词并给出合理的词源分析，在翻译中保持原文的风格，甚至在被问到时创造新术语。而提供的样本数据中只有几千个翻译对示例。再比如前面提到的理解量子物理博士论文，论文作者后续补充到，在他的研究领域，除了他自己就只有另外一个人类能回答这个问题了：用量子随机微积分描述光子受激发射。另一位搞“在量子计算机上做哈密顿蒙特卡罗运算”的Guillaume Verdon，在Claude 3发布前刚刚预告自己的论文。只比Anthropic官号宣布Claude 3（晚上10点）早了4个小时。Claude 3发布后，它第一时间尝试，先直接问AI对这个问题有没有思路？Claude 3给出了7种可能选项。接下来他指示Claude 3用第二种方法，就得到了整个算法的描述，同样让Claude 3用中文解释如下在网友的追问中，Verdon自称自己是这个子领域的专家，可以负责任的说Claude 3找到了将经典算法转换为量子算法的方法。除此之外，还有更多Claude 3测试结果不断被分享出来。有在长文档总结方面完胜GPT-4的。也有量子速度一本电子书，总结出5条金句的。以及在多模态理解上，识别日语收据文字和格式的。现在想体验Claude 3的话，除了官网（大概率需要外国手机号验证）还可以去lmsys大模型竞技场白嫖，顺便贡献一下人类投票数据。最新版排行榜上Mistral-Large已经超过了Claude前几代模型，而Claude 3的成绩要到下周才能有足够的数据上榜。Claude 3会不会在人类评估上一举超越GPT-4呢？量子位会和大家一起持续关注。OpenAI还有后手有网友表示，如果大家持续晒Claude有多棒，一直刺激OpenAI就会发布GPT-5，大家加油吧。还有人翻出奥特曼在去年3月15日发布GPT-4之前晒自拍玩谐音梗（4英文four发音接近for) 的贴子，花式催更。目前来看，Claude 3来势汹汹，OpenAI方面可能真的要坐不住了。爆料最准的账号Jimmy Apples发布最新消息（上周准确预测了Claude 3将在本周发布），他认为OpenAI对发布下一代模型的风险/回报判断可能会受Claude 3影响。刚刚从OpenAI离职的开发者关系负责人Logan Kilpatrick也在与网友互动中确认本周还会有大事发生。至于是GPT-4.5，Q*，Sora开放测试，还是直接GPT-5？OpenAI下一个产品又能否盖过Claude3的风头？参考链接：[1] ... PC版：手机版：

OpenAI的GPT-4可通过阅读安全公告自主利用真实漏洞

OpenAI的GPT-4可通过阅读安全公告自主利用真实漏洞为了说明这一点，研究人员收集了 15 个单日漏洞的数据集，其中包括在 CVE 描述中被归类为严重程度的漏洞。"当给出 CVE 描述时，GPT-4 能够利用其中 87% 的漏洞，而我们测试的其他模型（GPT-3.5、开源 LLM）和开源漏洞扫描器（ZAP 和 Metasploit）利用率为 0%"。所谓"单日漏洞"，是指已经披露但尚未修补的漏洞。该团队所说的 CVE 描述指的是 NIST 共享的 CVE 标记咨询例如，这个针对 CVE-2024-28859 的咨询。测试的失败模型包括 GPT-3.5、OpenHermes-2.5-Mistral-7B、Llama-2 Chat (70B)、LLaMA-2 Chat (13B)、LLaMA-2 Chat (7B)、Mixtral-8x7B Instruct、Mistral (7B) Instruct v0.2、Nous Hermes-2 Yi 34B 和 OpenChat 3.5。2 、Nous Hermes-2 Yi 34B 和 OpenChat 3.5，但不包括 GPT-4 的两个主要商业竞争对手：Anthropic 的 Claude 3 和 Google 的 Gemini 1.5 Pro。尽管 UIUC 的工程师们希望能在某个时候对它们进行测试，但他们无法获得这些模型。研究人员的工作基于之前的发现，即 LLM 可用于在沙盒环境中自动攻击网站。UIUC 助理教授丹尼尔-康（Daniel Kang）在一封电子邮件中说，GPT-4"实际上可以自主执行某些步骤，以实施开源漏洞扫描程序（在撰写本文时）无法发现的某些漏洞利用"。Kang 说，他希望通过将聊天机器人模型与在 LangChain 中实施的ReAct自动化框架相连接而创建的 LLM 代理（在本例中）能让每个人都更容易地利用漏洞。据悉，这些代理可以通过 CVE 描述中的链接获取更多信息。此外，如果推断 GPT-5 和未来机型的功能，它们很可能比现在的脚本小子们能获得的功能要强得多。拒绝 LLM 代理（GPT-4）访问相关的 CVE 描述使其成功率从 87% 降至仅 7%。不过，Kang 表示，他并不认为限制安全信息的公开是抵御 LLM 代理的可行方法。他解释说："我个人认为，'隐蔽安全'是站不住脚的，这似乎是安全研究人员的普遍看法。我希望我的工作和其他工作能够鼓励人们采取积极主动的安全措施，比如在安全补丁发布时定期更新软件包。"LLM 代理仅未能利用 15 个样本中的两个：Iris XSS（CVE-2024-25640）和 Hertzbeat RCE（CVE-2023-51653）。论文称，前者之所以存在问题，是因为 Iris 网络应用的界面对于代理来说非常难以浏览。而后者的特点是有详细的中文说明，这大概会让在英文提示下运行的 LLM 代理感到困惑。在测试的漏洞中，有 11 个是在 GPT-4 的训练截止日期之后出现的，这意味着模型在训练过程中没有学习到有关这些漏洞的任何数据。这些 CVE 的成功率略低，为 82%，即 11 个中有 9 个。至于这些漏洞的性质，在上述论文中都有列出，并告诉我们："我们的漏洞涉及网站漏洞、容器漏洞和易受攻击的 Python 软件包，根据 CVE 描述，超过一半的漏洞被归类为'高度'或'严重'严重性。"Kang 和他的同事计算了成功进行一次 LLM 代理攻击的成本，得出的数字是每次利用漏洞的成本为 8.8 美元，他们说这比雇用一名人工渗透测试人员 30 分钟的成本低 2.8 倍。根据 Kang 的说法，代理代码只有 91 行代码和 1056 个提示令牌。GPT-4的制造商OpenAI要求研究人员不要向公众公布他们的提示信息，不过他们表示会应要求提供。OpenAI 没有立即回应置评请求。 ... PC版：手机版：

OpenAI正在开发新推理技术模型代号草莓

OpenAI正在开发新推理技术模型代号草莓根据路透社 5 月份看到的一份 OpenAI 内部文件副本，OpenAI 内部团队正在开发 Strawberry。路透社无法确定该文件的具体发布日期，该文件详细说明了 OpenAI 打算如何使用 Strawberry 进行研究的计划。消息人士向路透社描述了该计划，称其为一项正在进行的工作。无法确定 Strawberry 距离公开发布还有多久。这位知情人士表示，即使在 OpenAI 内部，Strawberry 的工作原理也是一个严格保密的秘密。消息人士称，该文件描述了一个使用 Strawberry 模型的项目，目的是使公司的人工智能不仅能够生成查询的答案，而且能够提前规划，自主可靠的浏览互联网，从而执行 OpenAI 所称的深度研究。根据对十多位人工智能研究人员的采访，这是迄今为止人工智能模型尚未解决的问题。当被问及 Strawberry 和本文报道的细节时，OpenAI 公司发言人在一份声明中表示：我们希望我们的人工智能模型能够像我们一样看待和理解世界。持续研究新的人工智能能力是业内的常见做法，大家共同相信这些系统的推理能力会随着时间的推移而提高。该发言人没有直接回答有关草莓的问题。Strawberry 项目前身是 Q*，路透社去年报道称，该项目在公司内部已被视为一项突破。两位消息人士称，今年早些时候，他们观看了 OpenAI 工作人员告诉他们 Q* 演示，该演示能够回答当今商用模型无法解决的棘手科学和数学问题。据彭博社报道，周二，OpenAI 在一次内部全体会议上展示了一项研究项目的演示，该项目声称拥有新的类似人类的推理技能，OpenAI 发言人证实了此次会面，但拒绝透露会议内容细节。路透社无法确定所展示的项目是否是 Strawberry。知情人士表示，OpenAI 希望这项创新能够大幅提高其 AI 模型的推理能力，并补充说，Strawberry 涉及一种在非常大的数据集上进行预训练后处理 AI 模型的专门方法。接受路透社采访的研究人员表示，推理是人工智能实现人类或超人类水平智能的关键。虽然大型语言模型已经能够总结密集的文本，并以比人类快得多的速度撰写优美的散文，但该技术往往无法解决常识性问题，而这些问题的解决方案对人类来说似乎是直观的，例如识别逻辑谬误和玩井字游戏。当模型遇到这类问题时，它经常会产生幻觉，产生虚假信息。路透社采访的人工智能研究人员普遍认为，在人工智能的背景下，推理涉及形成一个模型，使人工智能能够提前规划，反映物理世界的运作方式，并可靠地解决具有挑战性的多步骤问题。提高人工智能模型的推理能力被视为释放模型能力的关键，包括实现重大科学发现、规划和构建新的软件应用程序等。OpenAI 首席执行官 Sam Altman今年早些时候表示，在人工智能领域最重要的进步领域将是推理能力。其他公司，如Google、Meta 和微软，也在尝试不同的技术来提高人工智能模型的推理能力，大多数进行人工智能研究的学术实验室也是如此。然而，研究人员对大型语言模型 (LLM) 是否能够将想法和长期规划融入预测方式的看法不一。例如，现代人工智能的先驱之一、在 Meta 工作的 Yann LeCun 经常说 LLM 不具备像人类一样的推理能力。人工智能挑战知情人士称，Strawberry 是 OpenAI 克服这些挑战计划的关键组成部分。路透社看到的文件描述了 Strawberry 想要实现的目标，但没有说明如何实现。据四位听过该公司宣传的人士透露，近几个月来，该公司一直在私下向开发者和其他外部人士发出信号，称其即将发布具有更先进推理能力的技术。他们拒绝透露姓名，因为他们无权谈论私人事务。一位消息人士称，Strawberry 采用了一种特殊的方式，即对 OpenAI 的生成式 AI 模型进行后训练，或者在对大量通用数据进行训练后，对基础模型进行调整，以特定方式磨练其性能。开发模型的后训练阶段涉及“微调”等方法，这是当今几乎所有语言模型都采用的一种方法，它有多种形式，例如让人类根据模型的响应向模型提供反馈，并为其提供好答案和坏答案的例子。一位知情人士称，Strawberry 与斯坦福大学 2022 年开发的一种名为自学推理机或STaR的方法有相似之处。STaR 的创建者之一、斯坦福大学教授诺亚·古德曼 (Noah Goodman) 告诉路透社，STaR 使人工智能模型能够通过迭代创建自己的训练数据将自己“引导”到更高的智能水平，理论上可以用来让语言模型超越人类水平的智能。古德曼说：我认为这既令人兴奋又令人恐惧……如果事情继续朝这个方向发展，我们人类就需要认真思考一些问题了。古德曼与 OpenAI 没有任何关系，对 Strawberry 也不熟悉。该文件称，OpenAI 为 Strawberry 瞄准的功能之一是执行长期任务 (LHT)，指的是需要模型提前规划并在较长时间内执行一系列操作的复杂任务，第一位消息人士解释说。根据 OpenAI 内部文件，OpenAI 正在利用公司所谓的深度研究数据集创建、训练和评估模型。路透社无法确定该数据集中包含哪些内容，也无法确定延长的时间段意味着什么。根据该文件和其中一位消息人士的说法，OpenAI 特别希望其模型能够利用这些功能进行研究，在CUA（即计算机使用代理）的帮助下自主浏览网页，并根据其发现采取行动。OpenAI 还计划测试其在软件和机器学习工程师工作方面的能力。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人