Transformer论文共同作者、谷歌AI研究员利昂·琼斯将离职创业

Transformer论文共同作者、谷歌AI研究员利昂·琼斯将离职创业 7月11日，据彭博消息，帮助撰写了开创性人工智能论文《注意力就是你所需要的一切》的利昂·琼斯证实，他将于本月晚些时候离开谷歌日本，并计划在休假后创办一家公司。该论文于2017年发表，介绍了Transformer的概念，该系统可以帮助AI模型在它们正在分析的数据中锁定最重要的信息。Transformer现在是大型语言模型的关键构建模块，这一技术支撑着如OpenAI旗下ChatGPT等广为流行的AI产品。这几年间，该论文的作者们创办了一些知名初创公司，其中包括为企业客户提供大型语言模型的Cohere，以及聊天机器人公司Character.AI。 via 匿名标签: #Google 频道: @GodlyNews1 投稿: @GodlyNewsBot

在Telegram中查看

相关推荐

DeepMind 研究员论文称 AI 将消灭人类

DeepMind 研究员论文称 AI 将消灭人类来自谷歌 DeepMind 和牛津大学的研究人员发表的一篇新论文称，超级智能的 AI “很可能” 会给人类带来生存灾难。这篇论文设想地球上的生命将变成人类与超级先进的机器之间的零和游戏。他们认为，在一个资源有限的世界里，对这些资源的竞争是不可避免的。在未来的某个时刻，监督某些重要功能的高级 AI 可能被激励想出作弊策略，以损害人类的方式获得其奖励。来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。这个老哥可能是除了这篇论文的另一个作者（现在在Open AI工作）之外最懂Diffusion Transformer的人了，非常值得关注。有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝，短短一年时间就变成了Sora这怪物模型的理论基础。 -正文开始- 以下是我对Sora技术报告的解读，其中包含了一些可能并不准确的猜测。首先，我非常感谢团队分享了极为有价值的见解和设计决策Sora确实令人惊叹，它将彻底改变视频生成领域。我们目前所了解到的情况如下：架构：Sora基于我们的扩散变换器（Diffusion Transformer，简称DiT）模型构建，该模型已发表在2023年国际计算机视觉会议（ICCV 2023）上。简单来说，它是一个结合了变换器（Transformer）主干的扩散模型： DiT = [变分自编码器（VAE）编码器 + 视觉变换器（ViT）+ 去噪扩散概率模型（DDPM）+ VAE解码器]。根据报告，这个模型似乎没有太多额外的复杂设计。 “视频压缩网络”：这看起来就像是一个在原始视频数据上训练的变分自编码器（VAE）。在实现良好的时间一致性方面，标记化（Tokenization）可能扮演着关键角色。顺便提一下，VAE本质上是一个卷积网络，所以从技术上说，DiT实际上是一个混合模型。 ;) 当Bill和我参与DiT项目时，我们并未专注于创新（详见我之前的推特），而是将重点放在了两个方面：简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。简洁性代表着灵活性。关于标准的视觉变换器（ViT），人们常忽视的一个亮点是，它让模型在处理输入数据时变得更加灵活。例如，在遮蔽自编码器（MAE）中，ViT帮助我们只处理可见的区块，忽略被遮蔽的部分。同样，Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。猜测：Sora可能还使用了Google的Patch n’ Pack（NaViT）技术，使DiT能够适应不同的分辨率、持续时间和长宽比。

离职高级研究员：OPENAI 将“闪亮产品”置于安全之上

离职高级研究员：OPENAI 将“闪亮产品”置于安全之上扬•雷克(Jan Leike)曾领导 OpenAI 引导和控制超级强大的人工智能工具的工作，他表示，由于与上级在初创公司投入这些工作的时间和资源上产生分歧，他于周四辞职。雷克在社交媒体网站 X 上的周五帖子中写道：“过去几年里，安全文化和流程已经被闪亮的产品所取代。”“我们迫切需要找出如何引导和控制比我们更聪明的 AI 系统，”雷克写道。“我之所以加入 OpenAI，是因为我认为这是世界上进行这项研究的最佳场所。然而，我与 OpenAI 领导层在公司的核心优先事项上的分歧已经持续了相当长的一段时间，直到我们最终达到了一个决裂点。”雷克表示，超级对齐团队难以获取计算资源，这些资源正在被用于开发新的面向消费者的模型，例如 OpenAI 在周一发布的最新模型 GPT-4o。“在过去的几个月里，我的团队一直在逆风中奋进。有时我们为了计算资源而苦苦挣扎，这使得完成这项至关重要的研究变得越来越困难，”他写道。

消息称微软将AI研发外包给OpenAI 谷歌或从中受益

消息称微软将AI研发外包给OpenAI 谷歌或从中受益 McKinnon还指出，为当前的生成式AI技术提供动力的Transformer，正是来自谷歌。Transformer是谷歌于2017年开发的早期AI模型。McKinnon说：“突破来自谷歌，Transformer是所有这些大型语言模型都在使用的算法。而微软在AI领域的地位有可能沦为一家‘咨询公司’。”对此，微软尚未发表评论。当前，微软的一些顶级产品，如生成式AI聊天机器人Copilot和配备生成式AI软件的PC，都开始融入OpenAI的技术。微软已对OpenAI投入了数十亿美元。有报道称，到目前为止总投资已达到130亿美元。微软曾表示，其投资将加速AI突破，以确保这些裨益被世界广泛分享。McKinnon称：“这太奇怪了。想象一下在微软工作的情景。OpenAI在那里开发所有令人兴奋的东西，而微软就像变成一家咨询公司。” ... PC版：手机版：

产品发布拖延越来越多谷歌AI员工选择离职创业

产品发布拖延越来越多谷歌AI员工选择离职创业这一事件再次凸显了在谷歌等科技巨头内部，顶级研究人员在产品商业化方面面临漫长等待的无奈与选择。因此，他们决定抓住风险投资者对人工智能领域新兴公司的浓厚兴趣，自己去创业。Uncharted Labs总部位于纽约，已成功筹集了850万美元的启动资金，融资目标是1000万美元。据知情人士透露，创始团队在过去几个月里会见了多家潜在投资者，包括知名风投公司Andreessen Horowitz。Uncharted Labs的创始团队包括总裁大卫·丁（David Ding）。大卫·丁此前在谷歌DeepMind的一个精英研究团队中担任技术负责人，该团队规模仅为30人。DeepMind是总部位于英国的人工智能研究机构，去年与谷歌的核心人工智能团队完成了合并。文件显示，大卫·丁在DeepMind的前团队成员查理·纳什（Charlie Nash）和雅罗斯拉夫·加宁（Yaroslav Ganin）也加入了Uncharted Labs的创始团队。大卫·丁和加宁在谷歌的任职时间均超过了五年。根据领英上的公开资料，大卫·丁的另一位前同事康纳·德坎（Conor Durkan）去年年底离职。不过，目前尚不清楚德坎是否已加盟Uncharted Labs。这些研究人员在DeepMind工作期间共同参与了多个前沿的人工智能项目。他们成功开发出一种能够根据用户简单描述自动生成原创图像和音乐的人工智能技术。去年11月，DeepMind推出了音乐生成模型Lyria。这款创新的人工智能模型能够从头开始创作歌曲，并巧妙地融入了查理·普斯（Charlie Puth）和约翰·传奇（John Legend）等知名艺术家的独特音乐风格。此外，这些研究人员还为谷歌最新推出的图像生成模型Imagen 2做出了杰出贡献。Imagen 2是谷歌近期向云客户推出的一款强大的人工智能工具，旨在与Midjourney和OpenAI的Dall-E 3等竞争对手展开激烈竞争。最近DeepMind的这一系列离职事件表明，谷歌在人工智能产品发布方面存在拖延问题，同时内部研究人员也对繁文缛节感到不满。早在2021年，有些谷歌员工不满公司拒绝推出聊天机器人（后更名为Bard），选择了自立门户，创办了Character.AI。其他一些对谷歌内部人工智能开发限制不满的员工则转投了竞争对手OpenAI。谷歌高层一直在努力应对内部疑虑与挑战。公司首席执行官桑达尔·皮查伊（Sundar Pichai）在去年的一篇博客文章中宣布了谷歌人工智能部门的重组计划，并强调这将“推动我们在人工智能领域的发展速度”。为了实现这一目标，谷歌让位于加州山景城的人工智能研究团队共聚一堂，并通过每日会议协调加州与伦敦两地的工作进度，以确保Gemini项目（OpenAI GPT-4竞品）能够迅速取得进展。在这篇博文发布后，谷歌发言人克里斯·帕帕斯（Chris Pappas）进一步表示：“DeepMind拥有世界一流的研究团队，我们将继续致力于开发能够改变数十亿人生活的人工智能技术。”然而，一位不愿透露姓名的前员工透露，尽管DeepMind的研究人员在2023年春季就完成了音乐生成模型Lyria的开发工作，但谷歌直到11月才对外发布，至今仍未向公众开放。这位前员工认为，谷歌将谷歌大脑(GoogleBrain)和DeepMind两大内部人工智能部门合并，加剧了DeepMind员工的挫败感。因为在享受了多年的相对独立之后，他们现在不得不围绕谷歌的人工智能产品优先事项来调整自己的研究方向。在过去的两年里，DeepMind和谷歌大脑的多位优秀员工离职创办了新的初创公司，其中包括开源人工智能模型开发商Mistral AI，以及同样专注于文本生成模型的SakanaAI和Reka AI。为了留住顶级的人工智能研究人员，谷歌采取了一系列措施，包括向他们提供特殊的股票奖励，这些股票的兑现速度要比其他奖励更快。然而，风险资本对生成式人工智能初创公司的诱惑力实在太大。根据PitchBook和美国国家风险投资协会(NationalVenture Capital Association)的数据，2023年，超过三分之一的美国风险投资资金流向了人工智能开发商。去年，一首利用人工智能模仿艺术家德雷克（Drake）和The Weeknd声音的歌曲《Heart on My Sleeve》在TikTok和Spotify等平台上引起了轰动。然而，环球音乐集团以侵犯版权为由向这些平台施压，最终导致这首歌曲被下架。这一事件引发了人们对人工智能在音乐领域应用的关注和讨论。与初创公司相比，谷歌等大型科技公司在获得音乐授权方面可能具有更多优势。例如，DeepMind与拥有丰富音乐资源的YouTube合作建立了自己的音乐生成模型，而TikTok也与唱片公司签订了类似的协议。 ... PC版：手机版：

这五天，我作为论文作者参加了世界上最大的AI顶级学术会议，采访了20+优质论文作者，参加了大厂、顶级创业公司、VC的内部聚会，平

这五天，我作为论文作者参加了世界上最大的AI顶级学术会议，采访了20+优质论文作者，参加了大厂、顶级创业公司、VC的内部聚会，平均每天睡眠5hr + 800ml 冰美式。takeaways： LLM验证了大模型范式，而这个新范式的潜力远不限于文字生成。在计算机视觉，大模型范式带来的变量正在被释放：大语言模型可以提升物体定位算法的效果、微调后的Stable Diffusion能够找到人体关节的坐标、新模型生成可交互的2.5D场景...我正在整理一份视觉领域的最新变量，如果你感兴趣，欢迎关注点赞转发，我会发给你。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人