OpenAI泄密者Pavel Izmailov"光速"投奔马斯克

OpenAI泄密者Pavel Izmailov"光速"投奔马斯克 要不说老马招人下手快呢,除了小P,不少优秀人才近期都被马斯克揽入麾下。看热闹的网友炸开了锅。夸他的人不少,称他干得漂亮:也有人嫌弃死了,觉得雇佣泄露机密信息的人,这行为无异于捡垃圾。而且最近xai的表现包括发布Grok 1.5V在内,狠狠刷了波存在感,不由得引人感慨:xAI将成为游戏的主要参与者,与OpenAI、Anthropic分庭抗礼。聘请OpenAI开除的泄密者事情是这样的,有个对大模型领域新鲜事儿极其关注的博主,有了个大发现:马斯克旗下xAI的新晋员工,可不少啊???而且其中还有数人研究方向与OpenAI最神秘的Q*算法有点关系,看来马斯克才是Q*的真正信徒。具体是哪些人刚刚择xAI而栖了呢?最为瞩目的就是咱们开头提到过的小P。他还是纽约大学CILVR小组成员,本人透露2025年秋将加入纽约大学Tandon CSE、Courant CS担任助理教授。半个月前,他的个人页面还写着,“在OpenAI搞搞大模型推理工作”。半个月后,物是人非。但小P的Twitter置顶还是没有改变,是超级对齐团队的第一篇论文,小P是这篇论文的作者。超级对齐团队组团于去年7月份,是OpenAI为应对不同时间尺度上大模型可能会产生的安全问题,成立的三大安全团队之一。超级对齐团队负责遥远的未来,给超越人类的超级智能安全性奠定基础,由Ilya Sutskever和Jan Leike领导。说起来,虽然OpenAI看起来似乎在安全方面很重视,但其内部对AI的安全开发存在很大分歧已不是什么秘密。这种分歧甚至被认为是去年11月OpenAI董事会宫斗大戏的最主要原因。网传Ilya Sutskever成为“政变”带头人,就是因为看到了一些东西让他内心不安。而Ilya带领的这个超级对齐团队,很多成员也是站在Ilya这边,在后来支持奥特曼的比心接龙活动中,这个超级对齐团队成员也基本保持了沉默。然而宫斗事件平息后,Ilya仿佛在OpenAI蒸发了一般,惹得外界流言四起,但他再也没有公开露面过,甚至都没在网上进行澄清或辟谣。因此,超级对齐团队现在是个什么情况,咱也不知道。小P作为超级对齐团队成员、Ilya部下,半个月前从OpenAI被毕业,被网友猜测是奥特曼的“秋后算账”。人才啊,他连夜投奔马斯克虽然外界还不知道Q*的全貌,但种种迹象表明,它致力于把大模型与强化学习、搜索算法等结合起来,增强AI推理能力。除了最有八卦点的小P,下面几位新加入xAI的人才研究方向多多少少与之相关。Qian Huang,目前还是斯坦福大学的一名博士生。去年夏天开始,Qian Huang在Google DeepMind工作,目前Twitter上已经注明了@xai,暂不知担任什么职务。但从GitHub个人主页可以看到,她的研究方向是将机器推理与人类推理结合起来,特别是新知识的合理性、可解释性和可扩展性。Eric Zelikman,斯坦福博士在读生,Twitter上写明“study why @xai”。之前,他先后在Google研究院和微软研究院待过一段时间。他在个人主页上说:“我对算法如何(以及是否)能够学习有意义的表示和推理很着迷,我正在xAI研究这回事儿。”今年3月他所在团队推出Quiet-Star算法,确实也是Q*,让大模型学会自己独立思考。Aman Madaan,卡内基梅隆大学语言技术研究所博士在读生。他的研究领域包括大型语言模型、反馈驱动的生成以及代码生成和自然语言推理的交叉领域,研究的首要主题是使用推理时间计算(Inference-Time Compute)来增强推理能力(Reasoning)。攻读博士学位期间,Aman曾担任Google大脑和艾伦人工智能研究所的学生研究员和合作者;更早以前,他还是Oracle的主要技术人员。加上Pavel Izmailov在内的几位新员工,自此马斯克的技术人才版图已扩增至34人(不包括马斯克本人),相比于最开始12人的创始团队增长了约2倍。在新加入的成员当中,华人共计7人,加上创始团队的5人,自此共有12人。Xiao Sun,此前曾在Meta、IBM就职,博士毕业于耶鲁,北大校友。Ting Chen,此前曾在GoogleDeepMind、Google大脑就职,本科毕业于北邮。Juntang Zhuang,此前曾在OpenAI就职,DALL-3、GPT-4核心贡献者,本科毕业于清华,硕博毕业于耶鲁。Xuechen Li,今年博士毕业于斯坦福,羊驼Alpaca系列大模型的核心贡献者。Lianmin Zheng,UC伯克利计算机博士,小羊驼Vicuna、Chatbot Arena创建者。Qian Huang,斯坦福在读博士生,毕业于天津南开中学。Haotian Liu,威斯康星大学麦迪逊分校,本科毕业于浙江大学,LLaVA一作。而从机构分布上看,主要还是集中于Google、斯坦福、Meta、OpenAI、微软等机构,他们都有丰富的大模型训练经验, 比如GPT系列、大小羊驼系列,以及GoogleMeta相关大模型。从加入时间来看,更多还是集中在今年2-3月,平均每5天就有一名新成员加入共计13人。去年8-10月间只有5人加盟。而如果结合相对应Grok的进展,也能看到马斯克xAI每一阶段招人计划。比如今年3月29日,马斯克突然发布Grok-1.5,上下文长度飙升,从原本的8192增长到128k,和GPT-4齐平。而将时间推回一个月(今年2月),OpenAI前员工Juntang Zhuang加盟xAI。他在OpenAI发明了GPT-4 Turbo支持128k长上下文能力的算法。还有像今年4月15日,Grok-1.5V多模态模型发布,它能处理除文本信息外,包括图表、屏幕截图、照片在内的各种视觉信息。而今年3月,LLaVA一作Haotian Liu才刚刚加盟。LLaVA是端到端训练多模态大模型,展现出了类似于GPT-4V的能力。而新版LLaVA-1.5 在 11 个基准上实现了SoTA。那现在不妨可以大胆设想一下, 新一波人才引进,Grok可能会有什么样的新升级呢?网友:不管,Grok-1.5在哪呢(还没开源呢)。但是不管怎么说,根据此前马斯克所说的人才标准来看,这位网友道出了“实情”:大家都说老马家大模型公司都是人才,其实人家马斯克根本不在乎你有才没才的。人家说了,只要你能每周工作80小时还不崩溃,就能加入他们。80个小时?!量子位掐指一算,那不就是一周无休每天工作11.5个小时吗……别说智商了,这活从体力上咱就干不了干不了。 ... PC版: 手机版:

相关推荐

封面图片

马斯克说到做到 Grok遵照Apache 2.0协议开放模型权重和架构

马斯克说到做到 Grok遵照Apache 2.0协议开放模型权重和架构 Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,这种MOE架构重点在于提高大模型的训练和推理效率,形象地理解,MOE就像把各个领域的“专家”集合到了一起,遇到任务派发给不同领域的专家,最后汇总结论,提升效率。决定每个专家做什么的是被称为“门控网络”的机制。xAI已经将Grok-1的权重和架构在GitHub上开源。目前Grok-1的源权重数据大小大约为300GB。截至北京时间3月18日上午7时许,Grok-1项目收获了3400颗星。Grok-1是马斯克xAI自2023年7月12日成立以来发布的首个自研大模型。xAI特别强调说这是他们自己从头训练的大模型。Grok-1没有针对特定应用进行微调。xAI是马斯克去年刚刚成立的明星AI创企,其目的之一就是与OpenAI、Google、微软等对手在大模型领域进行竞争,其团队来自OpenAI、GoogleDeepMind、Google研究院、微软研究院等诸多知名企业和研究机构。此前马斯克刚刚“怒喷”OpenAI不够“Open”,后脚这就开源了自家的顶级3410亿参数自研大模型Grok-1。虽然马斯克在预热到发布的过程中也“放了几次鸽子”,但最终他并没有食言。今天,xAI还公布了Grok-1的更多细节:基础模型基于大量文本数据训练,未针对特定任务进行微调。3140亿参数的Mixture-of-Experts模型,其对于每个token,活跃权重比例为25%。xAI从2023年10月开始使用自定义训练堆栈在JAX和Rust之上从头开始训练。但此次xAI并没有放出Grok-1的具体测试成绩,其与OpenAI即将发布的GPT-5的大模型王者之战,必将成为业内关注的焦点。当然,马斯克发大模型,怎么会少的了大佬隔空对线“互怼”?xAI官方消息刚刚发布,ChatGPT的官方账号马上就跟马斯克在X平台上进行了互动,在Grok官方账号评论下回复道:“偷了我的笑话。”马斯克自然不会示弱,马上说请告诉我OpenAI“Open”之处在哪里。马斯克高仿号也马上跑过来添油加醋,说我们都知道是Sam在运营ChatGPT的账号。值得一提的是,此次xAI发布Grok-1消息的封面图片,是由Midjourney生成,Grok给出了提示文本:一个神经网络的3D插图,具有透明节点和发光连接,展示不同粗细和颜色的连接线的不同权重(A 3D illustration of a neural network, with transparent nodes and glowing connections, showcasing the varying weights as different thicknesses and colors of the connecting lines)。原图: ... PC版: 手机版:

封面图片

马斯克的xAI拿下60亿美元融资 准备对决OpenAI

马斯克的xAI拿下60亿美元融资 准备对决OpenAI 融到 60 亿美金,就意味着能做出比肩 OpenAI 的大模型吗?因为他是马斯克。能吸引到最优秀的 AI 人才,能搞定大算力和大笔融资做 Scaling Law(缩放定律,被视为大模型的秘诀),除了他,你很难想到还有第二个人。况且,背靠自动驾驶这个被视为大模型最大的应用场景、X.com ToC 流量入口,以及作为曾经的 OpenAI 联合创始人身份,马斯克的入场,势必冲击大模型的制高点。01 马斯克:钱和卡,我搞得定2023 年 2 月,微软向 OpenAI 投资了 100 亿美元,你或许觉得这笔钱应该能花好一阵子。但在今天,100 亿美金几乎才是 2024 年做大模型的起平线。撇开现金流充足的Google,OpenAI、Anthropic 和 xAI 分别获得了约 130 亿美元、70 亿美元、60 亿美元融资额,来“卷”新一代大模型。这主要是由于做大模型所需要的算力一再扩张,尤其是随着多模态融合成为新的 AGI 大模型路线。如果说去年做大模型的算力门槛是 1 万张英伟达 H100 的算力集群,那么,今年这个数字变成了至少 10 万张 H100,这是马斯克筹集 60 亿美元资金的主要用途。据 The Information 采访的一位投资者,马斯克在最近与潜在和现有 xAI 投资者的通话中表示,公司将把大部分资金用于租用 AI 芯片,并帮助其在 2025 年下半年达到 10 万个 GPU,以便改进 Grok 背后的模型。这位人士说,马斯克暗示,他是仅有的几位能筹集到足够资金与领先的人工智能公司竞争的高管之一。上个月,马斯克在上的现场音频聊天中表示,xAI 将需要 10 万个 NVIDIA H100 GPU 来训练 Grok 3.0。他表示,该公司目前正在大约 20,000 个 H100 芯片上训练 Grok 2.0。图片来源:视觉中国英伟达没有公布过其芯片的成本,但研究公司 SemiAnalysis 的首席分析师 Dylan Patel 表示,租用 10 万台 H100 每年可能花费约 17 亿美元;即将推出的被称为 GB200 的 NVIDIA AI 芯片可能比前代产品贵 50%。能不能“借”到钱买算力是一方面,有了钱能不能买到算力又是另一方面。当前,英伟达最高端的 GPU 系列仍旧供不应求,云厂商能用来训练大模型的算力集群有限。马斯克将目光锁定在了三大云厂商之外的另一家甲骨文 Oracle。与亚马逊云 AWS、Google云、微软云 Azure 不同,甲骨文与 OpenAI 或 Anthropic 没有业务往来,这可能使其对马斯克作为合作伙伴更具吸引力。同时,马斯克也是甲骨文联合创始人埃里森的老朋友,埃里森此前曾担任马斯克的另一家公司特斯拉的董事会董事,并出资帮助马斯克接管了当时还被称为 Twitter 的 X。据直接知情人士透露,XAI 已经是 Oracle 最大的 H100 客户,使用了超过 15000 个芯片。现在,马斯克已经明确 xAI 将需要多达 10 万个专用半导体来训练和运行下一代 Grok。他告诉投资者,xAI 计划将所有这些芯片串联成一台大型计算机,他称之为“算力超级工厂”(gigafactory of compute)。马斯克希望在 2025 年秋天之前让这台超级计算机投入运行,并将亲自负责按时交付。他称,这些连接起来的 H100 集群,建成后的规模将至少是目前最大 GPU 集群的四倍。在“算力超级工厂”的计划下,XAI 可能与甲骨文公司合作开发超级计算机,也可能选择其他合作方或合作形式。一个细节体现在本轮融资的出资方包括红杉、A16Z 等基金,唯独没有甲骨文的身影。相比之下,其他三大云厂商和大模型公司之间的合作则通过投资来“锁定”云客户。无论如何,“算力超级工厂”给了 Grok 上一线牌桌的起点,这场 AI 背后的算力竞赛,还将继续加码。此前,扎克伯格表示,到 2024 年底,Meta 将拥有 35 万台 H100,其中一些将用于训练公司的 Llama 开源大模型。微软计划在今年和明年为 OpenAI 提供容纳数十万个 GPU 的服务器。OpenAI 和微软已经在讨论到 2028 年开发一台价值 1000 亿美元的超级计算机。02 Grok,马斯克商业版图不可或缺的一环马斯克曾于 2015 年联合创办了非营利机构OpenAI,2018 年 2 月,马斯克辞去了 OpenAI 董事会席位,理由是与他作为特斯拉 CEO 的角色存在“潜在的未来利益冲突”。去年,马斯克创办了 xAI,再度下场做大模型,以开发一种他认为与Google和 OpenAI 相比不那么“清醒(woke)”,不那么容易受到政治正确或其他审查制度影响的替代方案。在今天融资官宣的博客里,xAI 再次重申了这一点,称 xAI 专注于开发真实、有能力且对全人类最大利益的先进 AI 系统,公司使命是了解宇宙的真实本质。图片来源:视觉中国过去一年,xAI 从 2023 年 7 月公司发布,到 11 月在 X 上发布 Grok-1,再到最近宣布的具有长上下文能力的改进型 Grok-1.5 模型,再到具有图像理解功能的 Grok-1.5V,xAI 的模型能力得到了快速提升。在马斯克的构想中,Grok 对语音的限制比 OpenAI 和Google的 AI 助手要少。马斯克表示,该公司目前正在 2 万个 GPU 上训练 Grok 2,最近的一个版本可以处理文档、图表和现实世界中的物体。马斯克计划将该模型扩展到音频和视频领域。马斯克在向潜在投资者推介时说,xAI 比 Anthropic 和 OpenAI 更有优势,因为这两家公司没有直接向客户销售其模型的明确途径,而是依赖云提供商转售其技术。他称,xAI 将通过包括特斯拉在内的其他公司销售 Grok,从而更直接地接触用户。而自动驾驶也被视为大模型最大的应用场景。融资消息官宣后,马斯克在为 xAI 招聘人才。|截图来源:X.comxAI 官网中,该公司正在招聘数据、多模态、模型训练的人才。|图片来源:xAI值得注意的是,xAI 大约有 50 名员工,其员工相关成本仅是对手的一小部分。今天,xai 也在官网寻求更多 AI 人才,释放了一众招聘岗位。一边狂裁特斯拉,一边疯狂为 xAI 招人,马斯克的 AI 之路,走的依然是他自己的风格。 ... PC版: 手机版:

封面图片

马斯克的xAI据称正洽谈融资至多60亿美元 以挑战OpenAI

马斯克的xAI据称正洽谈融资至多60亿美元 以挑战OpenAI 据悉,马斯克的谈判对象包括来自中国香港、日本和韩国的投资者,他还将目光投向了中东的主权财富基金。知情人士称,摩根士丹利目前正在协调融资活动,该公司曾于2022年帮助马斯克杠杆收购了社交媒体平台推特(现已更名为X)。马斯克是OpenAI的联合创始人之一,这家公司是他与OpenAI首席执行官萨姆·奥尔特曼等人于2015年创立的。不过,马斯克在2018年就离开了OpenAI。有媒体报道称,马斯克与OpenAI其他管理层发生了冲突,包括在对待人工智能安全的立场上,最终促使他离开了该公司。去年7月,马斯克正式宣布创立自己的人工智能公司,该公司的团队来自OpenAI、DeepMind以及其他顶级人工智能研究公司。xAI去年12月向美国证券交易委员会(SEC)提交的文件显示,该公司正寻求从股权投资者那里筹集10亿美元资金。该文件显示,xAI当时已向目标融资1.35亿美元。xAI去年11发布了名为Grok的聊天机器人,Grok正在使用X上的社交媒体帖子进行训练,使其能够比竞争对手更多的最新答案。值得一提的是,上月有媒体报道称,OpenAI正在进行新一轮融资谈判,其目标估值超过1000亿美元。 ... PC版: 手机版:

封面图片

马斯克用行动反击 开源自家顶级大模型 压力给到OpenAI

马斯克用行动反击 开源自家顶级大模型 压力给到OpenAI 有意思的是,Grok-1宣布开源的封面图为Midjourney生成,可谓“AI helps AI”。一直吐槽OpenAI不open的马斯克,自然要在社交平台上含沙射影一番,“我们想了解更多OpenAI的开放部分。”Grok-1遵照Apache 2.0协议开放模型权重和架构。这意味着它允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。这种开放性鼓励了更广泛的研究和应用开发。项目发布至今,已经在GitHub上揽获6.5k星标,热度还在持续增加。项目说明中明确强调,由于Grok-1是一个规模较大(314B参数)的模型,需要有足够GPU内存的机器才能使用示例代码测试模型。网友表示这可能需要一台拥有628 GB GPU内存的机器。此外,该存储库中MoE层的实现效率并不高,之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。目前已开源的热门大模型包括Meta的Llama2、法国的Mistral等。通常来说,发布开源模型有助于社区展开大规模的测试和反馈,意味着模型本身的迭代速度也能加快。Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,由马斯克旗下的AI创企xAI在过去4个月里开发。回顾该模型的开发历程:在宣布成立xAI之后,相关研究人员首先训练了一个330亿参数的原型语言模型(Grok-0),这个模型在标准语言模型测试基准上接近LLaMA2(70B)的能力,但使用了更少的训练资源;之后,研究人员对模型的推理和编码能力进行了重大改进,最终开发出了Grok-1并于2023年11月发布,这是一款功能更为强大的SOTA语言模型,在HumanEval编码任务中达到了63.2%的成绩,在MMLU中达到了73%,超过了其计算类中的所有其他模型,包括ChatGPT-3.5和Inflection-1。与其他大模型相比,Grok-1的优势在哪呢?xAI特别强调,Grok-1是他们自己从头训练的大模型,即从2023年10月开始使用自定义训练堆栈在JAX和Rust上训练,没有针对特定任务(如对话)进行微调;Grok-1的一个独特而基本的优势是,它可以通过X平台实时了解世界,这使得它能够回答被大多数其他AI系统拒绝的辛辣问题。Grok-1发布版本所使用的训练数据来自截至2023年第三季度的互联网数据和xAI的AI训练师提供的数据;3140亿参数的Mixture-of-Experts模型,其对于每个token,活跃权重比例为25%,这一庞大的参数量为其提供了强大的语言理解和生成能力。xAI此前介绍,Grok-1将作为Grok背后的引擎,用于自然语言处理任务,包括问答、信息检索、创意写作和编码辅助。未来,长上下文的理解与检索、多模态能力都是该模型将会探索的方向之一。 ... PC版: 手机版:

封面图片

马斯克称正在提高特斯拉AI团队薪酬 以阻止OpenAI挖角

马斯克称正在提高特斯拉AI团队薪酬 以阻止OpenAI挖角 马斯克回应了The Information有关特斯拉人工智能科学家Ethan Knight加入马斯克旗下初创公司xAI的报道。马斯克说:“Ethan 打算加入OpenAI,所以要么是xAI,要么是OpenAI。”马斯克帮助创办了OpenAI,但后来与该公司闹翻。他现在正在特斯拉内部和旗下初创公司xAI多维度布局人工智能。 ... PC版: 手机版:

封面图片

ℹ伊隆·马斯克的人工智慧服务 Grok 被前伙伴讽刺 ! 让马斯克真的怒了#

ℹ伊隆·马斯克的人工智慧服务 Grok 被前伙伴讽刺 ! 让马斯克真的怒了# 11月3日伊隆·马斯克宣布自家 xAI 公司的人工智慧服务「Grok」即将推出给选定的团队试用的消息,并且透露 Grok 跟其他公司的人工...

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人