Pi AI从 LLM升级到Inflection-2.5 使其变得聪明而富有同情心

Pi AI从 LLM升级到Inflection-2.5 使其变得聪明而富有同情心 Inflection AI 表示,在这次更新中,它在编码和数学等领域取得了长足进步,从而在行业基准测试中取得了更好的成绩。这次更新还让 Pi 具备了实时网络搜索的能力,因此它可以获得最新的信息。该公司表示,更新已经向用户推出,这使得用户情绪、参与度和留存率都得到了改善。对于没有尝试过它的人来说,它很像 ChatGPT,甚至支持语音通话;不想使用该应用的人也可以通过 WhatsApp、Instagram、Messenger 和 Telegram 与人工智能聊天。在 MMLU、GPQA、BIG-Bench-Hard、Mathematics、Coding 和 Common Sense 基准测试中,Inflection-2.5 稍微落后于 GPT-4,但也只是稍稍落后,而与 Inflection-1 相比则取得了长足进步。您可以查看下面的结果:Inflection AI 表示,尽管此次更新提高了智商,但其 LLM 的情商仍然很高,因此非常友好和平易近人。该公司还表示,它采用了非凡的安全标准。继Claude 3 系列模型 Haiku、Sonnet 和 Opus 发布之后,Inflection-2.5 也紧随其后发布。这些模型与 OpenAI 的 GPT-4 不相上下,甚至更胜一筹。Google最新的 Gemini 型号也具有类似的性能。据称,Meta 正在准备在七月左右发布 Llama 3 LLM,它也很可能与 GPT-4 不相上下。由于大多数竞争对手都在追赶 GPT-4,OpenAI 可能会感到压力,不得不发布其模型的更新;GPT-4 于 2023 年 3 月 14 日发布。了解更多: ... PC版: 手机版:

相关推荐

封面图片

LLM竞争白热化了,Inflection发布Inflection-2.5模型,他们称这是世界上最好的语言模型,Inflectio

LLM竞争白热化了,Inflection发布Inflection-2.5模型,他们称这是世界上最好的语言模型,Inflection-2.5 现已向所有 Pi 用户开放。 Inflection-2.5 接近 GPT-4 的性能,但仅使用了 40% 的计算量用于训练。 我们在编码和数学等智商领域取得了特别的进步。 Pi 现在还融入了世界一流的实时网络搜索功能,以确保用户获得高质量的突发新闻和最新信息。 Inflection-1 使用的训练 FLOP 约为 GPT-4 的 4%,平均而言,在各种 IQ 导向的任务中,其表现约为 GPT-4 水平的 72%。现在为 Pi 提供支持的 Inflection-2.5,尽管只使用了 40% 的训练 FLOP,但其平均性能却达到了 GPT-4 的 94% 以上。 详细信息:

封面图片

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了 基于此,Bard相较于3月份的首次亮相,不仅在表现上有了显著的提升,而且还具备了更多的能力。可以看到,在最新的Gemini Pro-scale加持下,Bard直接蹿升到了排行榜第二名的位置。一口气把之前的两款GPT-4模型斩于马下,甚至和排名第一的GPT-4 Turbo的差距也非常小。虽然Jeff Dean并没有具体阐述“scale”的含义,但从名称上推测,很可能是一个比初代Gemini Pro规模更大的版本。而根据前段时间外媒曝出的内部邮件,搭载Gemini Ultra的Bard Advanced已经全面开放给Google员工试用。也就是说,距离Google最强模型的上线,已经不远了。随着Google对Gemini Pro更新后不断大幅上涨的表现,也让所有人对完全体Gemini Ultra的能力有了更多的期待。不过,新推出的Bard目前只接受了约3,000次评价,而GPT-4的评价次数已高达30,000次。因此,这个结果后续很可能还会发生变动。但不管怎样,这对于Google来说是一项令人瞩目的成就,也让人对即将发布的、预期将超过Gemini Pro-Scale性能的最强AI模型Gemini Ultra充满期待。GoogleBard超越GPT-4跃居第二简单介绍一下,这个由UC伯克利主导,CMU,UCSD等顶级高校共同参与创建的聊天机器人竞技场“Chatbot Arena”,是学术圈内一个很权威的大模型对话能力排行榜。榜单通过类似Moba游戏中的“排位赛”机制,让各家大模型通过PvP的方式来排出性能高低。期间,用户会与模型(不知道具体型号)进行互动,并选择他们更喜欢的回答。而这些投票将会决定模型在排行榜上的名次。这种方式能够有效地避免很多PvE基准测试中可能出现的,通过“刷题”来提高成绩的问题,被业界认为是一个比较客观的大模型能力排行榜。为了便于区分,LMSYS Org指出,目前Gemini Pro市面上总共有3个版本:- Gemini Pro API:用户可以通过Google云的Vertex AI API进行访问- Gemini Pro(dev)API:开发者API可以通过Google AI Studio进行访问- Bard(1月4日更新的Gemini Pro):是目前唯一可以访问到1月24日更新的Gemini Pro的方式同时,GoogleBard项目的高级总监Sadovsky也透露,排行榜上的Bard和Gemini Pro(API)是两个在微调层面不同的模型,而且Bard可以检索互联网上的信息。在ChatBot Arena中,1月24号更新的Bard由于支持检索互联网,相比于之前放出的Gemini Pro(API)对于实时信息问题的回复提升巨大。从Google的这波更新可以看出,Gemini Pro的潜力似乎远远没有被完全释放,希望Google能再接再厉,对OpenAI一家独大的格局形成挑战。以下是1月14号更新的Bard在ChatBot Arena中的成绩的明细:模型A相对于模型B在所有非平局对决中获胜的比例不同模型组合间对决的次数统计(排除平局情况)通过1000轮随机抽样对Elo评分进行的自举法(Bootstrap)估计在假设等概率抽样和不存在平局的情况下,相对于所有其他模型的平均胜率Elo评分系统Elo等级分制度(Elo rating system)是一种计算玩家相对技能水平的方法,广泛应用在竞技游戏和各类运动当中。其中,Elo评分越高,那么就说明这个玩家越厉害。比如英雄联盟、Dota 2以及吃鸡等等,系统给玩家进行排名的就是这个机制。举个例子,当你在英雄联盟里面打了很多场排位赛后,就会出现一个隐藏分。这个隐藏分不仅决定了你的段位,也决定了你打排位时碰到的对手基本也是类似水平的。而且,这个Elo评分的数值是绝对的。也就是说,当未来加入新的聊天机器人时,我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。具体来说,如果玩家A的评分为Ra,玩家B的评分为Rb,玩家A获胜概率的精确公式(使用以10为底的logistic曲线)为:然后,玩家的评分会在每场对战后线性更新。假设玩家A(评分为Ra)预计获得Ea分,但实际获得Sa分。更新该玩家评分的公式为:网友热议对此,网友提问:现在能够访问的Bard就是这个排名第二的Bard了吗?Google官方回复,是的,而且现在访问的Bard比排行榜的上的Bard还能支持更多的像地图扩展等应用。不过还是有网友吐槽,即使在PvP排行榜上Bard已经取得了很好的成绩,但是对于理解用户需求和解决实际问题的能力,Bard和GPT-4依然还有很大差距。也有网友认为,用能联网的Bard和离线的GPT-4打有失公平。甚至,就这样还没打过……而最有意思的,还要数网友在排行榜中发现的“华点”了:号称是GPT-4最大竞品的Claude居然越更新越弱了。对此,之前有分析认为,Anthropic一直在大力发展的与人类对齐,会严重影响模型的性能。GPT-4 Turbo超长上下文A/B测试有趣的是,这个连Jeff Dean都亲自下场的“刷榜”,正巧就在OpenAI连发5款新模型的第二天。根据OpenAI的介绍,新版GPT-4 Turbogpt-4-0125-preview,不仅大幅改善了模型“偷懒”的情况,而且还极大地提升了代码生成的能力。不过,正如大家对Bard的怀疑,GPT-4这次到底有没有变强也有待验证。对此,AI公司Smol的创始人Shawn Wang,就在超过100k单词的超长上下文中,对比测试了新旧GPT4-Turbo的总结能力。Wang表示,两次测试使用的是完全相同提示词,以及基本相同的语料库。虽然没有严格严格,但每个模型都进行了超过300次的API调用,因此对于总结任务而言,这一结果还是具有一定参考价值的。结果显示,2024年1月的GPT4-Turbo花费了19分钟来生成20,265个单词,相比之下,2023年11月的用16分钟生成了18,884个单词。也就是说,新模型的生成速度大约慢了 18%,且生成文本的长度平均偏长约7%。质量方面:- 2024年1月的模型在主题选择上略有改善,但仍存在问题- 2023年11月的模型会产生更多错误信息- 2024年1月的模型在总结中添加小标题的能力略有提升- 2024年1月的模型出现了一次严重的格式错误,而这在之前是极为罕见的- 2023年11月的模型文本详情更加丰富总体而言,新版GPT4-Turbo在总结这一应用场景上有所退步。左侧:2023年11月;右侧:2024年1月(左右滑动查看全部)OpenAI最后的“开源遗作”两周年不得不说,AI领域的发展过于迅猛,甚至让人对时间的流速都产生了错觉。今天,英伟达高级科学家Jim Fan发推纪念了InstructGPT发布二周年。在这里,OpenAI定义了一套标准流程:预训练 -> 监督式微调 -> RLHF。直到今天,这依然是大家遵循的基本策略(尽管有些许变化,比如DPO)。它不仅仅是大语言模型从学术探索(GPT-3)到转化为具有实际影响力的产品(ChatGPT)的关键转折点,而且也是最后一篇OpenAI详细说明他们如何训练前沿模型的论文。论文地址: InstructGPT在2022年的NeurIPS会议上首次亮相,但它并不是RLHF的发明者。实际上,相关博客将读者引向了OpenAI团队在2017年完成的原始RLHF研究。这项研究最初的目的是解决模拟机器人领域中难以明确定义的任务通过一名人类标注者提供的900个二选一偏好,RLHF让一个简单的“跳跃”机器人在模拟环境中学会了后空翻。论文地址: 模型提供了三种规模:1.3B、6B、175B。与旧的、需要复杂提示设计的GPT-3-175B相比,标注者明显更喜欢Instruct-1.3B。微软最知名的“小模型”Phi-1也是1.3B。- InstructGPT展示了如何精彩地呈现研究成果。三个步骤的图表清晰易懂,并且成为AI领域最标志性的图像之一。引言部分直接了当,用粗体突出了8个核心观点。对局限性和偏见的讨论实事求是、坦诚直接。 ... PC版: 手机版:

封面图片

OpenAI的GPT-4可通过阅读安全公告自主利用真实漏洞

OpenAI的GPT-4可通过阅读安全公告自主利用真实漏洞 为了说明这一点,研究人员收集了 15 个单日漏洞的数据集,其中包括在 CVE 描述中被归类为严重程度的漏洞。"当给出 CVE 描述时,GPT-4 能够利用其中 87% 的漏洞,而我们测试的其他模型(GPT-3.5、开源 LLM)和开源漏洞扫描器(ZAP 和 Metasploit)利用率为 0%"。所谓"单日漏洞",是指已经披露但尚未修补的漏洞。该团队所说的 CVE 描述指的是 NIST 共享的 CVE 标记咨询例如,这个针对 CVE-2024-28859 的咨询。测试的失败模型包括 GPT-3.5、OpenHermes-2.5-Mistral-7B、Llama-2 Chat (70B)、LLaMA-2 Chat (13B)、LLaMA-2 Chat (7B)、Mixtral-8x7B Instruct、Mistral (7B) Instruct v0.2、Nous Hermes-2 Yi 34B 和 OpenChat 3.5。2 、Nous Hermes-2 Yi 34B 和 OpenChat 3.5,但不包括 GPT-4 的两个主要商业竞争对手:Anthropic 的 Claude 3 和 Google 的 Gemini 1.5 Pro。尽管 UIUC 的工程师们希望能在某个时候对它们进行测试,但他们无法获得这些模型。研究人员的工作基于之前的发现,即 LLM 可用于在沙盒环境中自动攻击网站。UIUC 助理教授丹尼尔-康(Daniel Kang)在一封电子邮件中说,GPT-4"实际上可以自主执行某些步骤,以实施开源漏洞扫描程序(在撰写本文时)无法发现的某些漏洞利用"。Kang 说,他希望通过将聊天机器人模型与在 LangChain 中实施的ReAct自动化框架相连接而创建的 LLM 代理(在本例中)能让每个人都更容易地利用漏洞。据悉,这些代理可以通过 CVE 描述中的链接获取更多信息。此外,如果推断 GPT-5 和未来机型的功能,它们很可能比现在的脚本小子们能获得的功能要强得多。拒绝 LLM 代理(GPT-4)访问相关的 CVE 描述使其成功率从 87% 降至仅 7%。不过,Kang 表示,他并不认为限制安全信息的公开是抵御 LLM 代理的可行方法。他解释说:"我个人认为,'隐蔽安全'是站不住脚的,这似乎是安全研究人员的普遍看法。我希望我的工作和其他工作能够鼓励人们采取积极主动的安全措施,比如在安全补丁发布时定期更新软件包。"LLM 代理仅未能利用 15 个样本中的两个:Iris XSS(CVE-2024-25640)和 Hertzbeat RCE(CVE-2023-51653)。论文称,前者之所以存在问题,是因为 Iris 网络应用的界面对于代理来说非常难以浏览。而后者的特点是有详细的中文说明,这大概会让在英文提示下运行的 LLM 代理感到困惑。在测试的漏洞中,有 11 个是在 GPT-4 的训练截止日期之后出现的,这意味着模型在训练过程中没有学习到有关这些漏洞的任何数据。这些 CVE 的成功率略低,为 82%,即 11 个中有 9 个。至于这些漏洞的性质,在上述论文中都有列出,并告诉我们:"我们的漏洞涉及网站漏洞、容器漏洞和易受攻击的 Python 软件包,根据 CVE 描述,超过一半的漏洞被归类为'高度'或'严重'严重性。"Kang 和他的同事计算了成功进行一次 LLM 代理攻击的成本,得出的数字是每次利用漏洞的成本为 8.8 美元,他们说这比雇用一名人工渗透测试人员 30 分钟的成本低 2.8 倍。根据 Kang 的说法,代理代码只有 91 行代码和 1056 个提示令牌。GPT-4的制造商OpenAI要求研究人员不要向公众公布他们的提示信息,不过他们表示会应要求提供。OpenAI 没有立即回应置评请求。 ... PC版: 手机版:

封面图片

苹果发布人工智能模型MGIE 可根据自然语言输入编辑图片

苹果发布人工智能模型MGIE 可根据自然语言输入编辑图片 该模型能够编辑图像的各个方面。全局照片增强可包括亮度、对比度或锐利度,或应用素描等艺术效果。局部编辑可以修改图像中特定区域或对象的形状、大小、颜色或纹理,而 Photoshop 风格的修改则包括裁剪、调整大小、旋转和添加滤镜,甚至是更改背景和混合图像。用户对一张披萨照片的输入可能是"让它看起来更健康"。利用常识推理,模型可以添加蔬菜配料,如西红柿和香草。全局优化输入请求的形式可以是"增加对比度,模拟更多光线",而 Photoshop 风格的修改可以是要求模型将人物从照片背景中移除,将图像的焦点转移到拍摄对象的面部表情上。苹果公司与加州大学的研究人员合作创建了 MGIE,并在 2024 年国际学习表征会议(ICLR)上发表了一篇论文。该模型可在 GitHub 上获取,包括代码、数据和预训练模型。这是苹果公司几个月来在人工智能研究领域取得的第二次突破。12 月底,苹果公司透露,通过发明一种创新的闪存利用技术,它在 iPhone 和其他内存有限的苹果设备上部署大型语言模型 (LLM) 方面取得了长足进步。在过去的几个月里,苹果一直在测试一种可以与 ChatGPT 竞争的"Apple GPT"。据彭博社的马克-古尔曼(Mark Gurman)称,人工智能工作是苹果公司的一个优先事项,该公司正在为大型语言模型设计一个"Ajax"框架。The Information和分析师杰夫-普(Jeff Pu)都声称,苹果将在2024 年底左右在 iPhone 和 iPad 上推出某种生成式人工智能功能,也就是 iOS 18 上市的时候。据古尔曼称,iOS 18 据说将包括一个增强版 Siri,具有类似 ChatGPT 的生成式人工智能功能,并有可能成为 iPhone 历史上"最大的"软件更新。 ... PC版: 手机版:

封面图片

斯坦福2024 AI报告:中国AI专利全球第一 顶级AI模型主要来自美国

斯坦福2024 AI报告:中国AI专利全球第一 顶级AI模型主要来自美国 Stanford HAI 官方介绍道,‘这是我们迄今为止最全面的报告,而且是在人工智能对社会的影响从未如此明显的重要时刻发布的。’Stanford HAI 研究项目主任 Vanessa Parli 表示,‘我认为最令人兴奋的人工智能研究优势是将这些大型语言模型与机器人或智能体(agent)相结合,这标志着机器人在现实世界中更有效地工作迈出了重要一步。’附上《2024 年人工智能指数报告》下载地址: HAI 今年扩大了研究范围,更广泛地涵盖了人工智能的技术进步、公众对该技术的看法等基本趋势。新报告揭示了 2023 年人工智能行业的 10 大主要趋势:1.人工智能在某些任务上胜过人类,但并非在所有任务上人工智能已在多项基准测试中超越人类,包括在图像分类、视觉推理和英语理解方面。然而,它在竞赛级数学、视觉常识推理和规划等更复杂的任务上依然落后于人类。2.产业界继续主导人工智能前沿研究2023 年,产业界产生了 51 个著名的机器学习模型,而学术界只贡献了 15 个。2023 年,产学合作还产生了 21 个著名模型,创下新高。此外,108 个新发布的基础模型来自工业界,28 个来自学术界。3.前沿模型变得更加昂贵根据 AI Index 的估算,最先进的人工智能模型的训练成本已经达到了前所未有的水平。例如,OpenAI 的 GPT-4 估计使用了价值 7800 万美元的计算资源进行训练,而 Google 的 Gemini Ultra 的计算成本则高达 1.91 亿美元。相比之下,几年前发布的一些最先进的模型,即原始 transformer 模型(2017 年)和 RoBERTa Large(2019 年),训练成本分别约为 900 美元和 16 万美元。4.美国成为顶级人工智能模型的主要来源国2023 年,61 个著名的人工智能模型源自美国的机构,超过欧盟的 21 个和中国的 15 个。美国也仍然是人工智能投资的首选之地。2023 年,美国在人工智能领域的私人投资总额为 672 亿美元,是中国的近 9 倍。然而,中国依然是美国最大的竞争对手,中国的机器人安装量居世界首位;同样,世界上大多数人工智能专利(61%)都来自中国。5.严重缺乏对 LLM 责任的可靠和标准化评估AI Index 的最新研究显示,负责任的人工智能严重缺乏标准化。包括 OpenAI、 Google 和 Anthropic 在内的领先开发商主要根据不同的负责任人工智能基准测试他们的模型。这种做法使系统地比较顶级人工智能模型的风险和局限性的工作变得更加复杂。6.生成式人工智能投资激增尽管去年人工智能私人投资整体下降,但对生成式人工智能的投资激增,比 2022 年(约 30 亿美元)增长了近八倍,达到 252 亿美元。生成式人工智能领域的主要参与者,包括 OpenAI、Anthropic、Hugging Face 和 Inflection,都获得了一轮可观的融资。7.数据显示,人工智能让打工人更有生产力,工作质量更高2023 年,多项研究评估了人工智能对劳动力的影响,表明人工智能可以让打工人更快地完成任务,并提高他们的产出质量。这些研究还表明,人工智能有可能缩小低技能和高技能工人之间的技能差距。还有一些研究警告说,在没有适当监督的情况下使用人工智能可能会起到负面作用。8.得益于人工智能,科学进步进一步加速2022 年,人工智能开始推动科学发现。然而,2023 年,与科学相关的更重要的人工智能应用启动使算法排序更高效的 AlphaDev、促进材料发现过程的 GNoME、可在一分钟内提供极其准确的 10 天天气预报的 GraphCast、成功对 7100 万种可能的错义突变中的约 89% 进行分类的 AlphaMissence。如今,人工智能现在可以完成人类难以完成的、但对解决一些最复杂的科学问题至关重要的粗暴计算。在医疗方面,新的研究表明,医生可以利用人工智能更好地诊断乳腺癌、解读 X 射线和检测致命的癌症。9.美国的人工智能法规数量急剧增加2023 年,全球立法程序中有 2175 次提及人工智能,几乎是上一年的两倍。美国人工智能相关法规的数量在过去一年大幅增加。2023 年,与人工智能相关的法规有 25 项,而 2016 年只有 1 项。仅去年一年,人工智能相关法规的总数就增长了 56.3%。其中一些法规包括生成式人工智能材料的版权指南和网络安全风险管理框架。10.人们对人工智能的潜在影响有了更深刻的认识,同时也更焦虑来自市场研究公司 Ipsos 的一项调查显示,在过去一年中,认为人工智能将在未来 3-5 年内极大地影响他们生活的人,比例从 60%上升到 66%。此外,52% 的人对人工智能产品和服务表示焦虑,比 2022 年上升了 13 个百分点。在美国,来自皮尤研究中心(Pew)的数据显示,52% 的美国人表示对人工智能的担忧多于兴奋,这一比例比 2022 年的 38% 有所上升。附:来自AI Index 联合主任 Ray Perrault 的一封信十年前,世界上最好的人工智能系统也无法以人类的水平对图像中的物体进行分类。人工智能在语言理解方面举步维艰,也无法解决数学问题。如今,人工智能系统在标准基准上的表现经常超过人类。2023 年,人工智能进步加速。GPT-4、Gemini 和 Claude 3 等先进模型展示出了令人印象深刻的多模态能力:它们可以生成数十种语言的流畅文本,处理音频,甚至可以解释备忘录。随着人工智能的进步,它也越来越多地进入我们的生活。公司竞相打造基于人工智能的产品,普通大众也越来越多地使用人工智能。但是,当前的人工智能技术仍然存在重大问题。它无法可靠地处理事实、进行复杂的推理或解释其结论。人工智能面临两个相互关联的未来。第一个,技术不断改进,应用日益广泛,对生产力和就业产生重大影响。人工智能的用途有好有坏。第二个,人工智能的应用受到技术局限的制约。无论是哪一种,政府都越来越关注。政府正在积极参与,鼓励人工智能的发展,比如资助大学研发和激励私人投资。政府还致力于管理潜在的不利因素,如对就业的影响、隐私问题、错误信息和知识产权。在技术方面,今年的 AI Index 报告称,2023 年全球发布的新大型语言模型数量比上一年翻了一番。三分之二的模型是开源的,但性能最高的模型来自拥有封闭系统的行业参与者。Gemini Ultra 成为首个在大规模多任务语言理解(MMLU)基准上达到人类水平的 LLM;自去年以来,模型在该基准上的性能表现提高了 15 个百分点。此外,GPT-4 在综合语言模型整体评估(HELM)基准上取得了令人印象深刻的 0.97 平均胜率分数。虽然全球对人工智能的私人投资连续第二年减少,但对生成式人工智能的投资却急剧上升。财富 500 强企业财报电话会议中提及人工智能的次数比以往任何时候都多,而且新的研究表明,人工智能明显提高了打工人的生产率。在政策制定方面,全球在立法程序中提及人工智能的次数前所未有。美国监管机构在 2023 年通过的人工智能相关法规比以往任何时候都多。尽管如此,许多人仍对人工智能生成深度伪造等能力表示担忧。公众对人工智能有了更多的认识,研究表明,他们的反应也是焦虑的。 ... PC版: 手机版:

封面图片

OpenAI又迎人事动荡 超级对齐团队正在分崩离析

OpenAI又迎人事动荡 超级对齐团队正在分崩离析 访问:NordVPN 立减 75% + 外加 3 个月时长 另有NordPass密码管理器 这似乎是OpenAI高管第一次公开表示OpenAI将产品置于安全之上。对此,OpenAI联合创始人、CEO萨姆·阿尔特曼(Sam Altman)发文回应:“我非常感激杨·莱克对OpenAI的对齐研究和安全文化做出了贡献,看到他离开,我感到非常难过。他说得对,我们还有很多事情要做;我们致力于这样做。在接下来的几天里,我会有一个更长的帖子。”OpenAI去年7月组建了超级对齐团队,由杨·莱克和伊尔亚·苏茨克维领导,目标是在未来4年内解决控制超级智能AI的核心技术挑战。该团队承诺将获得该公司20%的计算资源,但其实际获得计算资源却受到阻碍。几个月来,OpenAI一直在流失关注AI安全的员工。自去年11月至今,OpenAI至少有7名注重安全的成员辞职或被开除。据《连线》证实,OpenAI超级对齐团队已经解散,余下成员要么辞职,要么将被纳入OpenAI的其他研究工作中。杨·莱克公开离职原因:团队逆风前行,拿计算资源很吃力前OpenAI超级对齐团队联合负责人杨·莱克(Jan Leike)昨晚连发13条推文,公开了离职原因:昨天是我作为OpenAI的对齐负责人、超级对齐负责人和执行官的最后一天。在过去的3年里,这是一段疯狂的旅程。我的团队使用InstructGPT推出了第一个RLHF LLM,发布了第一个可扩展的LLM监督,率先实现了自动化可解释性和弱到强的泛化。更多令人兴奋的东西即将问世。我爱我的团队。我非常感谢和我一起工作的许多了不起的人,包括超级联盟团队内部和外部的人。OpenAI拥有如此多非常聪明、善良和高效的人才。离开这份工作是我做过的最艰难的事情之一,因为我们迫切需要弄清楚如何引导和控制比我们聪明得多的AI系统。我加入是因为我认为OpenAI将是世界上做这项研究最好的地方。然而,很长一段时间以来,我与OpenAI领导层对公司核心优先事项的看法一直不合,直到我们终于到了临界点。我认为,我们应该把更多的带宽用于为下一代模型做好准备,包括安全性、监控、准备、对抗鲁棒性、(超级)一致性、保密性、社会影响和相关主题。这些问题很难解决,我担心我们没有走在到达那里的轨道上。过去几个月里,我的团队一直在逆风航行。有时我们在计算上很吃力,完成这项重要的研究变得越来越困难。建造比人类更聪明的机器本身就是一项危险的尝试。OpenAI代表着全人类肩负着巨大的责任。但过去几年,安全文化和流程已经让位于耀眼的产品。我们早就应该认真对待AGI的影响了。我们必须尽可能优先做好准备。只有这样,我们才能确保AGI造福全人类。OpenAI必须成为一家安全第一的AGI公司。对所有OpenAI员工,我想说:学会感受AGI。举止要庄重得体,为你们正在构建的东西。我相信你们可以“传递”所需的文化变革。我就指望你们了。全世界都指望着你们。: openai-heart:’大量关心AI安全的员工离职,苏茨克维半年没出现在OpenAI办公室几个月来,OpenAI一直在流失那些关心AI安全的员工。OpenAI超级对齐团队由OpenAI之前的校准部门的科学家和工程师以及来自公司其他机构的研究人员加入。他们将为内部和非OpenAI模型的安全性提供研究信息,并通过包括研究资助计划在内的倡议,向更广泛的AI行业征求并分享工作。该团队负责开发管理和引导“超级智能”AI系统的方法。据OpenAI超级对齐团队的一位人士透露,该团队承诺将获得公司20%的计算资源,但对其中一小部分计算的请求经常被拒绝,阻碍了团队的工作。一系列问题促使几名团队成员本周辞职。OpenAI没有立即回复关于承诺和分配给该团队的资源的评论请求。据消息人士透露,苏茨克维对超级对齐团队很有帮助,不仅贡献了研究,而且作为OpenAI内部其他部门的桥梁。他还将担任某种形式的大使,向OpenAI关键决策者展示团队工作的重要性。苏茨克维与阿尔特曼之间的矛盾更是增加了他的受关注度。去年11月,苏茨克维和OpenAI前董事会突然宣布开除阿尔特曼,理由是阿尔特曼对董事会成员“并不总是坦诚相待”。在包括微软在内的OpenAI投资者和该公司许多员工的压力下,阿尔特曼最终复职,董事会大部分成员辞职换人。据报道,苏茨克维再也没有回去工作。阿尔特曼复职后不久,苏茨克维曾发布一篇推文:‘上个月我学到了很多东西。其中一个教训是,“持续打击,直到士气提振”这句话的使用频率超出了它应有的范围。’没过多久,这篇推文就被删除了。此后在公开场合,苏茨克维和阿尔特曼继续保持着友谊的迹象,直到本周苏茨克维宣布离职时,阿尔特曼还将他称呼为“我亲爱的朋友”。据外媒报道,自夺权事变落幕以来,苏茨克维已经有大约6个月没出现在OpenAI办公室了。他一直在远程领导超级对齐团队,负责确保未来的AGI与人类的目标保持一致,而非背道而驰。这是个远大的抱负,但它与OpenAI的日常运营脱节。在阿尔特曼的领导下,该公司一直在探索将产品商业化。对阿尔特曼的信任崩塌:就像多米诺骨牌般一张张倒下苏茨克维和莱克并不是唯二离开的人,自去年11月以来,OpenAI至少有5名注重安全的员工辞职或被开除。关于阿尔特曼“不坦诚”的内因,业界众说纷纭,有一种猜测是OpenAI秘密取得了重大技术突破,认为苏茨克维选择离职是因为他看到了一些可怕的东西,比如一个可能摧毁人类的AI系统。真正的答案,可能确实跟阿尔特曼有关。据Vox报道,熟悉OpenAI的消息人士透露道,安全意识强的员工已经对阿尔特曼失去了信心。一位不愿透露姓名的公司内部人士说:“这是一个信任一点一点崩塌的过程,就像多米诺骨牌一张一张倒下。”没有多少员工愿意公开谈论此事。部分原因是OpenAI以让员工在离职时签署包含非贬损条款的离职协议而闻名。如果拒绝签署,员工就放弃了自己在公司的股权,这意味着可能会损失数百万美元。但有一名前员工拒绝签署离职协议,以便可以自由批评公司。丹尼尔·科科塔伊洛(Daniel Kokotajlo)于2022年加入OpenAI,希望带领公司实现AI的安全部署,他一直在治理团队工作,直到上个月辞职。“OpenAI正在训练越来越强大的AI系统,目标是最终全面超越人类智能。这可能是人类有史以来最好的事情,但如果我们不谨慎行事,也可能是最糟糕的事情,”科科塔伊洛说。“我加入时满怀希望,希望OpenAI能够迎难而上,在他们越来越接近实现AGI的过程中表现得更加负责任。我们中的许多人逐渐意识到这不会发生,”他谈道。“我逐渐对OpenAI领导层及其负责任地处理AGI的能力失去了信心,所以我辞职了。”尽管在公众面前展现出友情,但在苏茨克维试图赶走阿尔特曼后,人们对他们的友谊产生了怀疑。阿尔特曼被解雇后的反应也展现了他的性格。他用掏空OpenAI来威胁董事会重新向他敞开大门。前同事及员工纷纷透露说,阿尔特曼是一位口是心非的操纵者,例如他声称自己希望优先考虑安全,但实际行为却与此相矛盾。此前阿尔特曼找沙特基金支持成立一家新AI芯片公司的消息,让有安全意识的员工感到震惊。如果阿尔特曼真的关心以最安全的方式构建和部署AI,为什么他似乎在疯狂积累尽可能多的芯片,而这只会加速技术的发展?一位了解公司内部情况的消息人士称,对于员工来说,所有这些都导致他们逐渐“不再相信OpenAI说要做什么或者说重视某件事时,这些实际上是真的”。杨·莱克是前DeepMind研究员,在OpenAI期间参与了ChatGPT、GPT-4和ChatGPT前身InstructGPT的开发。在... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人