GPT、Sora,为什么王炸都来自OpenAI? #抽屉IT

None

相关推荐

封面图片

OpenAI 王炸:新 Sora 模型一句话生成 1 分钟视频,效果接近实拍 #抽屉IT

封面图片

马斯克为什么和OpenAI决裂? #抽屉IT

封面图片

为什么OpenAI更有可能在今年发布GPT-4.5而不是GPT-5?

为什么OpenAI更有可能在今年发布GPT-4.5而不是GPT-5? 据人工智能安全中心(Center for AI Safety)主任丹-亨德里克斯(Dan Hendrycks)称,OpenAI 的 GPT LLM 每迭代一次,所需的计算资源就增加 10 倍。因此,如果 OpenAI 跳过 GPT-4.5,直接跳到 GPT-5,那么计算需求将比 GPT-4 增加约 100 倍,相当于约 100 万个 H100 芯片连续运行三个月。Anthropic公司首席执行官达里奥-阿莫代(Dario Amodei)最近指出,目前培养一名最先进的 LLM 需要花费约 10 亿美元,预计到 2025/26 年,这一成本将激增到 50 亿到 100 亿美元之间。重要的是,10 亿美元的培训成本与 GPT-4.5 可以合理推断出的 10 倍计算资源激增相吻合。我们最近注意到,英伟达今年部署的 H100 设备预计年耗电量约为13000 GWh,相当于立陶宛和危地马拉等国的年耗电量。到 2027 年,全球数据中心的耗电量预计将达到85 到 134 太瓦时(TWh)!我们之前提到过,GPT-4 的竞争对手正在迅速迎头赶上。Meta公司的Llama 3 LLM(700亿参数)目前在Arena排行榜上排名前五。重要的是,Llama 3 现在已经超越了所有其他开源 LLM,这还是在没有即将推出的 4050 亿参数模型的情况下。此外,一些专家现在认为,GPT-5 必须改变"原始课程",其中包括利用"不完善的人类对话"和整体"幼稚"的训练过程。这与我们最初的观点不谋而合,即 OpenAI 很可能会在今年发布一个迭代的 GPT-4.5 模型,而不是在 GPT-5 中彻底改变赌注。 ... PC版: 手机版:

封面图片

什么是Auto GPT-4? OpenAI 最新语言模型概览 #抽屉IT

封面图片

联合创始人Greg最新采访:为什么OpenAI最先做出GPT-4?

联合创始人Greg最新采访:为什么OpenAI最先做出GPT-4? 纵观颠覆性技术的发展史,一个领域的主导者从来无法在下一个时代的平台上继续称雄,因为它们的成功会成为它们最大的桎梏。事实仿佛真的如此。即便Google疯狂自证在 AGI 领域的实力,但却只能在 OpenAI 身后追赶。为什么大企业无法创新?为什么是 OpenAI 首先开发出像 GPT-4 这样强大的模型?即使像 Google、Meta 有那么雄厚的资本,那么多人才储备也没有做到?5 月 15 日,可汗学院(Khan Academy)的 CEO 兼创始人萨尔曼・可汗(Sal Khan)对 OpenAI 联合创始人兼总裁格雷格・布罗克曼(Greg Brockman)进行了一段采访,这段采访或许能够帮助我们找到答案。研究与工程并重OpenAI 日前向公众揭秘了 Omni 团队,团队成员年龄和司龄的年轻化,以及团队管理的扁平化引发了网友热议。其实在成员组合方面,也“暗藏玄机”。OpenAI 的团队不仅有学术背景的研究型人才,同时还有优秀的工程人才,这种组合使他们能够从不同的角度解决问题,更有效地推动项目进步。Khan 询问 Brockman“你们认为自己做了什么才能达到如今的地位?在这个领域,有许多人在努力工作,也有许多资源雄厚的大型组织。你们认为自己做了什么与众不同?是因为你们的方法不同,还是有其他原因?”Greg Brockman 坦言“这是个很好的问题。我认为我们是更大趋势或历史的一部分。回顾过去 70 年的计算机发展史,我们经历了指数级的增长。”“2000 年,Ray Kurzweil 曾经说过,看看计算能力,它会告诉你什么是可能的。这就是推动进步的动力。起初大家都认为他疯了,但现在我相信大家基本上都认同他的观点。”Ray Kurzweil“想想我们为了实现像 GPT-4 这样的项目,付出了多少工程上的努力,从计算基础设施到使用的所有数据集和工具,这其实是全人类在很多方面的巨大努力。”“具体来说,我们能取得这些成就,是因为我们聚集了来自研究和工程背景的优秀人才。”“当我们开始这个项目时,让我感到非常有趣的是观察其他实验室的工作方式。你会发现,大多数实验室以研究为主,研究型工程师被告知要做什么,而研究科学家则可以随心所欲。”“这种方式似乎并不是实际构建一个工作系统的方法,更像是为了追求论文引用数量。如果你真的想产生影响并开发出有用的东西,你需要以不同的方式来组织团队。”“虽然说起来很简单,但实际上,这涉及到很多相互冲突的思维方式,特别是当你来自不同背景时。”我们必须尽力去解决这些问题,虽然你永远不能完全解决它们,但可以不断进步并挑战更复杂的版本。这就是我们需要勇于面对困难、勇于挑战的地方。」不会因为风险的存在而止步不前建立造福人类的 AGIGreg Brockman 第一次对人工智能的概念感到兴奋,是在他读到阿兰・图灵(Alan Turing)1950 年发表的关于图灵测试的论文的时候。他想看看,我们是否能够真正制造出图灵所说的那种机器,一种人类水平的智能,也就是我们所说的 AGI,并让它造福于全人类。这是 OpenAI 诞生的缘起,也是它的使命和愿景。为了这个目标,OpenAI 已经工作了 8 年。在这期间,OpenAI 一直在做同样的事情 建立更大的神经网络,让它更有能力,更协调、更安全,与此同时,部署这项技术,并使其发挥作用。Greg Brockman 称“这就是我认为这项技术最吸引我的地方,每走一步,你都能真正产生影响,真正开始造福人类。你会看到你所建立的东西带来的好处,并真正学会如何减少所有的不利因素。”迎战新的风险当 Khan 问及 AI 的安全性问题,Brockman 这样回答“AI 的安全问题有着悠久的历史,早在 50-60 年代,阿瑟・克拉克这样的人就在谈论这个问题。”《2001:太空漫游》作者阿瑟・克拉克“我认为,对 AI 拥有这种复杂的情感是非常正确的,我们既要对任何新事物感到惊奇,又要问这是要去哪里,哪里会有陷阱?我认为只有这样,我们才能正确地在这个空间里航行。”Brockman 提到,一件非常有趣的事情是,AI 是如何变得看起来“令人惊讶”的?在 90 年代,每个人都认为,如果 AI 可以下棋,就说明进入了 AGI 时代,但实际上,这只是我们要解决的第一件事情,AI 学会下棋并没有让我们真正走得更远。安全性问题也是一样。并不是说对 AI 安全的前瞻性的担忧一定不会发生,但 Brockman 认为,我们在错误的事情上过于自信了。他举了一个例子:对于 GPT-3,OpenAI 只是在基础数据集上进行训练后就将其发布,而对于 GPT-4,团队则对模型进行了调整,尽力消除偏见。事实上 OpenAI 在 2017 年就开始开发这项技术,当时这些模型还没有出现。现在,GPT-4 带来了一类新的风险,未来还会出现更多新的风险。风险和益处将会并存,关键是如何学会如何面对这种风险。在实践中学习当我们在思考 GPT 对教育领域的影响的时候,一些人可能会首先注意到抄袭的问题,Brockman 也承认让学生独立思考非常重要。但是“对于那些无法获得出色的教育工具的人来说,ChatGPT 是一个工具。教师可以根据自己的喜好,帮助学生进行某种工作并填补教育人员无法做到的空白。”至于如何制定规则,如何将这项技术融入教育,则需要“获得大量的意见,与大量的教育工作者接触。OpenAI 不是这项事业唯一的决定者,从每个人那里获得广泛的意见很重要。”“我们为了实现真正的益处,和一线的教育工作者交谈,真正弄清楚他们想要什么。”我们还需要“真正展示积极面”。一旦你有了一个有效的正面例子,就很容易围绕它建立标准,如果没有这个,那么就相当于“在黑暗中开枪”。就像采访者 Khan 谈到的,ChatGPT 对教育的影响取决于怎样使用,比方说我们可以用它来采访历史人物、练习辩论技巧等。更多正面使用的案例和经验需要在实践中获得。去年 OpenAI 发布了一篇关于部署语言模型安全标准的博客文章,这篇文章的形成用了 2 年的时间。Brockman 告诉 Khan“这种从实践中学习的迭代部署,是我们现在可以做的最重要的事情”。每个人都可以获得 AI 的“超能力”人工智能究竟会削弱人类能力,还是增强人类能力?Brockman 和 Khan 都站在人工智能会增强人类能力的这一边。Brockman 乐观地说“现在,拥有一部智能手机就可以开始以一种方式进行创作,而你之前必须购买一堆专业软件,你必须去学校接受大量的培训。”“我认为我们都可以获得人工智能的超能力,我们可以实现我们想要的目标”。当然,关于这个问题,每个人都可以有自己的答案,但 Greg Brockman 无疑是一个乐观主义者,这或许也是 OpenAI 不断向前的原因所在。乐观是油门,悲观是刹车,两者都不可或缺,但是想要前进,我们必须多踩油门而不是刹车。 ... PC版: 手机版:

封面图片

OpenAI王炸模型引爆科技圈 官方技术报告说了什么?

OpenAI王炸模型引爆科技圈 官方技术报告说了什么? 而在2024年开年,OpenAI就发布了王炸文生视频大模型Sora,它能够仅仅根据提示词,生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。为了方便理解,我们简单总结了这个模型的强大之处:1、文本到视频生成能力:Sora能够根据用户提供的文本描述生成长达60S的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示语。2、复杂场景和角色生成能力:Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜,使得生成的视频具有高度的逼真性和叙事效果。3、语言理解能力:Sora拥有深入的语言理解能力,能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令。4、多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。5、从静态图像生成视频能力:Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。6、物理世界模拟能力:Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动,如物体的移动和相互作用。可以说,Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够将人们的想象力转化为生动的动态画面,将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来,Sora正以其独特的方式,重新定义着我们与数字世界的互动。一反常态,OpenAI在模型公布后的不久,就公布了相关的技术Paper,我们第一时间“啃”了这篇技术报告,希望能够帮助大家理解到底有哪些神奇的技术,让Sora能够有如此强大的魔力。01 以下为OpenAI文生视频模型Sora官方技术报告我们探索了利用视频数据对生成模型进行大规模训练。具体来说,我们在不同持续时间、分辨率和纵横比的视频和图像上联合训练了以文本为输入条件的扩散模型。我们引入了一种transformer架构,该架构对视频的时空序列包和图像潜在编码进行操作。我们最顶尖的模型Sora已经能够生成最长一分钟的高保真视频,这标志着我们在视频生成领域取得了重大突破。我们的研究结果表明,通过扩大视频生成模型的规模,我们有望构建出能够模拟物理世界的通用模拟器,这无疑是一条极具前景的发展道路。这份技术报告主要聚焦于两大方面:首先,我们详细介绍了一种将各类可视数据转化为统一表示的方法,从而实现了对生成式模型的大规模训练;其次,我们对Sora的能力及其局限性进行了深入的定性评估。需要注意的是,本报告并未涉及模型的具体技术细节。在过去的研究中,许多团队已经尝试使用递归网络、生成对抗网络、自回归Transformer和扩散模型等各种方法,对视频数据的生成式建模进行了深入研究。然而,这些工作通常仅限于较窄类别的视觉数据、较短的视频或固定大小的视频上。相比之下,Sora作为一款通用的视觉数据模型,其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像,甚至包括生成长达一分钟的高清视频。将可视数据转换成数据包(patchs)在可视数据的处理上,我们借鉴了大语言模型的成功经验。这些模型通过对互联网规模的数据进行训练,获得了强大的通用能力。同样,我们考虑如何将这种优势引入到可视数据的生成式模型中。大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来,而Sora则通过视觉包(patchs)实现了类似的效果。我们发现,对于不同类型的视频和图像,包是一种高度可扩展且有效的表示方式,对于训练生成模型具有重要意义。图注:OpenAI专门设计的解码器模型,它可以将生成的潜在表示重新映射回像素空间在更高层次上,我们首先将视频压缩到一个低维度的潜在空间:这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合,从而将原始视频转化为这些包。视频压缩网络我们专门训练了一个网络,专门负责降低视觉数据的维度。这个网络接收原始视频作为输入,并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练,并最终生成视频。此外,我们还设计了一个解码器模型,它可以将生成的潜在表示重新映射回像素空间,从而生成可视的视频或图像。时空包当给定一个压缩后的输入视频时,我们会从中提取出一系列的时空包,这些包被用作转换token。这一方案不仅适用于视频,因为视频本质上就是由连续帧构成的,所以图像也可以看作是单帧的视频。通过这种基于包的表示方式,Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段,我们只需在适当大小的网格中安排随机初始化的包,就可以控制生成视频的大小和分辨率。用于视频生成的缩放TransformersSora是一个扩散模型,它接受输入的噪声包(以及如文本提示等条件性输入信息),然后被训练去预测原始的“干净”包。重要的是,Sora是一个基于扩散的转换器模型,这种模型已经在多个领域展现了显著的扩展性,包括语言建模、计算机视觉以及图像生成等领域。在这项工作中,我们发现扩散转换器在视频生成领域同样具有巨大的潜力。我们展示了不同训练阶段下,使用相同种子和输入的视频样本对比,结果证明了随着训练量的增加,样本质量有着明显的提高。丰富的持续时间、分辨率与纵横比过去,图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺寸,如4秒、256x256分辨率的视频。但Sora打破了这一常规,它直接在原始大小的数据上进行训练,从而带来了诸多优势。采样更灵活Sora具备出色的采样能力,无论是宽屏1920x1080p视频、垂直1080x1920视频,还是介于两者之间的任何视频尺寸,它都能轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是,即使在生成全分辨率内容之前,Sora也能以较小的尺寸迅速创建内容原型。而所有这一切,都得益于使用相同的模型。图注:Sora可以为各种设备生成与其原始纵横比完美匹配的内容改进构图与框架我们的实验结果显示,在视频的原始纵横比上进行训练,能够显著提升构图和框架的质量。为了验证这一点,我们将Sora与一个将所有训练视频裁剪为方形的模型版本进行了比较。结果发现,在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。而Sora则能呈现出更加完美的帧,充分展现了其在视频生成领域的卓越性能。图注:将所有训练视频裁剪为方形的模型相比(左),Sora能呈现出更加完美的帧语言理解深化为了训练文本转视频生成系统,需要大量带有相应文本字幕的视频。为此,我们借鉴了DALL·E3中的re-captioning技术,并应用于视频领域。首先,我们训练了一个高度描述性的转译员模型,然后使用它为我们训练集中的所有视频生成文本转译。通过这种方式,我们发现对高度描述性的视频转译进行训练,可以显著提高文本保真度和视频的整体质量。与此同时,与DALL·E3类似,我们还利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人