OpenAI CTO深度访谈 剧透GPT-5发布时间

OpenAI CTO深度访谈 剧透GPT-5发布时间 OpenAI CTO 穆拉提分享OpenAI近况与AI行业动向。穆拉提在达特茅斯学院(图源:达特茅斯学院)在这场访谈中,穆拉提分享了自己从航天行业、汽车行业、VR/AR再到加入OpenAI的丰富职业生涯,并根据自己在行业最前沿的所见所闻,分析了AI治理、AI对教育的影响、AI对工作的影响等问题。她在访谈中透露,明年或后年就会出现博士水平的智能系统,这或许指的就是GPT-5。她更是抛出一个极具争议性的观点,有些创意工作本不该存在,而AI很快便会取代这些职位。这一观点在网上引发轩然大波,认为OpenAI吃了饭就砸锅,并不理解创造力意味着什么。穆拉提认为OpenAI的成就离不开深度神经网络、大量数据和大量算力这3个因素的叠加,虽然他们还在研究背后的原理,但实践证明深度学习真的行得通。她称AI安全和AI能力是一体两面的,聪明的模型才能理解我们给它设定的护栏。从工程的角度上来看,AI能力的提升并不会降低模型的安全性。OpenAI对模型的安全性负有很大责任,但要实现风险的有效管控,社会和政府的参与也是必不可少的。OpenAI正积极与政府和监管机构合作,共同解决AI安全问题。在场的观众也向穆拉提抛出了尖锐的问题。穆拉提在回应观众对于模型价值观的问题时提到,OpenAI目前已经通过人类反馈强化学习将人类价值观融入AI系统,但未来的重点会是在基础价值体系上,给客户提供高度定制化的模型价值体系。观众还就OpenAI最近的侵权疑云和内容创作者的许可和补偿问题询问穆拉提的看法。穆拉提再次强调OpenAI并未刻意模仿斯嘉丽的声音,她挑选声音的决策过程是完全独立的。至于版权内容,OpenAI目前在尝试以聚合数据池的形式,让创作者提供版权内容到数据池中,整体评估创意内容对模型表现的贡献,并给予相应的报酬。但这一技术颇具难度,实际落地还需要一段时间。与OpenAI CEO萨姆·阿尔特曼(Sam Altman)不同,穆拉提之前的公众认知度较低。她在1998年出生于阿尔巴尼亚,之后到加拿大和美国求学。她2018年便加入OpenAI,是OpenAI的早期成员之一。作为OpenAI的CTO,她领导了OpenAI在ChatGPT、DALL·E、Codex和Sora方面的工作,同时还监管公司的研究、产品和安全团队。微软首席执行官萨蒂亚·纳德拉(Satya Nadella)评价穆拉提时说到,她既具备技术专长,也颇有商业头脑,并对OpenAI的使命有深刻认识。以下是对穆拉提在达特茅斯学院深度访谈的完整编译(为提高可读性,智东西调整了部分问答的顺序,并在不违背原意的前提下进行了一定的增删修改):01.干过航天、汽车、VR/AR等行业,发现自己对AI最感兴趣杰弗里·布莱克本:大家都想听听你的近况和你正在构建的东西,这真是太吸引人了。不过也许我们应该从你的故事开始。你毕业后去了特斯拉一段时间,然后是OpenAI。你能简短地和我们描述一下那个时期吗,还有你加入早期的OpenAI的故事。米拉·穆拉提:我大学毕业之后其实在航空领域短暂工作过,但之后我意识到航空领域的发展相当缓慢。我对特斯拉的使命非常感兴趣,也对构建可持续交通的未来需要面临的创新挑战感兴趣,因此我决定加入特斯拉。在参与Model S和Model X的工作后,我意识到自己也不想在汽车行业工作。我想要做一些能真正推动社会发展的事情,同时解决一些非常困难的工程挑战。我在特斯拉的时候对自动驾驶汽车、计算机视觉、AI这些技术和它们在自动驾驶汽车上的应用很感兴趣。我那时候想更深入地了解AI的其它领域。于是我加入了一家初创公司,在那里领导工程和产品团队,将AI和计算机视觉应用于空间计算领域,研究计算的下一个界面。当时我认为计算的交互界面会是VR和AR,但现在我的想法不一样了。那时候我认为,如果我们可以用手与非常复杂的信息交互,无论是公式、分子还是拓扑概念,我们便可以更直观地了解这些东西,扩展自己的学识。然而事实证明,当时谈VR还为时过早。但这给了我许多机会,能了解不同领域的AI技术。我想我的职业生涯一直都处于技术和应用的交叉点。这给了我一个不同的视角,能大致了解AI的发展程度以及它可以应用到什么领域。杰弗里·布莱克本:所以在特斯拉的自动驾驶研究中,你看到了机器学习、深度学习的可能性,看到了它的发展方向。米拉·穆拉提:是的。但我并没有看得很清楚。杰弗里·布莱克本:你给马斯克工作过吗?米拉·穆拉提:是的,特别是在最后一年。但那时我们还不太明确AI的发展方向。当时,我们仍然只是将AI应用于特定的应用场景里,而非通用的场景。VR和AR也是如此。而我不想只是将这些技术应用于具体问题。我想做更多的研究,了解背后的原理,然后开始将这些技术应用到其他事物上。我就在这个阶段加入了OpenAI,OpenAI的使命对我非常有吸引力。当时它是一个非营利组织。现在使命没有变,但结构变了。当我6年前加入时,它是一个致力于构建安全AGI(通用人工智能)的非营利组织。当时OpenAI是DeepMind之外唯一一个做相关研究的公司。这就是我在OpenAI旅程的开始。02.3大技术进步让ChatGPT成为可能,实践证明模型能深入理解数据杰弗里·布莱克本:明白了,所以你从那时起你就一直在构建很多东西。也许你可以为在场的观众提供一些AI的基础知识。从机器学习、深度学习到现在的AI,这些概念都是相互关联的,但也各有不同。这些转变是如何发生的呢,又是如何让ChatGPT、DALL·E或者Sora这样的产品成为可能的呢?米拉·穆拉提:其实我们的产品并不是全新的,在某种意义上我们的产品是建立在过去几十年人类共同的努力的基础上的。其实AI就开始于达特茅斯学院。在过去几十年中,神经网络、大量数据和大量算力的结合带来了真正具有变革性的AI系统或模型,它们能够执行一般性任务。尽管我们不清楚其为何成功,但是深度学习真的行得通。我们也试图通过研究和工具来理解这些系统的实际运作方式。不过根据我们过去几年研究AI技术时的经验,我们知道这条路行得通。我们也见证了它们逐渐进步的轨迹。以GPT-3为例,这是一个大约三年半前部署的大型语言模型。其目标是预测下一个token,基本上是下一个单词的预测。我们发现,如果我们给这个模型预测下一个token的任务,并用大量数据训练这个模型,给它大量计算资源时,我们还能获得一个真正理解语言的模型,而且其理解水平与人类相似。它通过阅读大量书籍和互联网的信息,形成了自己对这些数据的模式的理解,而不仅仅是简单地记忆。我们还发现,这种模型不仅可以处理语言,还可以处理不同类型的数据,如代码、图像、视频和声音。它并不在乎我们输入什么数据。我们发现,数据、计算和深度学习的结合运作得非常好,通过增加数据类型和计算量,这些AI系统的性能会不断提高。这便是所谓的扩展法则(Scaling Laws)。它不是实际的法则,而是模型能力提高的统计学预测。这就是推动今天AI进步的动力。杰弗里·布莱克本:你们为什么选择了聊天机器人作为第一款产品呢?米拉·穆拉提:就产品而言,我们其实是从API开始的,而不是聊天机器人。因为我们不知道如何将GPT-3商业化。商业化AI技术实际上非常困难。我们最初专注于技术的开发和研究,我们认为只要构建了一个优秀的模型,商业伙伴就会自然地拿它去构建产品。但后来我们发现这实际上非常困难,这也是为什么我们开始自己开发产品。于是我们开始自己构建一个聊天机器人,我们试图理解为... PC版: 手机版:

相关推荐

封面图片

OpenAI大模型GPT-5要来了!“提升很大”

OpenAI大模型GPT-5要来了!“提升很大” “它的性能非常棒,提升很大。”一位看过GPT-5大模型演示的CEO表示。该CEO表示,OpenAI使用他的公司独有的用例和数据展示了GPT-5。他说,OpenAI还提到了该模型尚未发布的其他功能,包括调用OpenAI正在开发的AI代理来自主执行任务。企业客户向OpenAI付费使用增强版ChatGPT。随着OpenAI拓展业务,其CEO山姆·奥特曼(Sam Altman)打造自己不断壮大的AI帝国,面向企业客户的销售成为了OpenAI的主要收入来源。不过,OpenAI尚未设定GPT-5的发布日期,这意味着公司内部对于这款大模型的发布时间预期可能会发生变化。据知情人士透露,OpenAI仍在训练GPT-5。在训练完成后,OpenAI将在内部对GPT-5进行安全测试,并进一步进行“红队”测试。在“红队”测试过程中,OpenAI员工和一些通常经过精选的外部人员会以各种方式对该工具进行挑战,以便在其向公众发布之前发现问题。知情人士指出,目前还没有GPT-5完成安全测试的具体时间表,所以该模型的发布日期可能会因为这一过程而推迟。GPT-4退化一年前,OpenAI针对ChatGPT发布了最后一次重大更新,该聊天机器人目前使用的是GPT-4大模型。OpenAI称,GPT-4的响应比之前的GPT-3要快得多,准确得多。OpenAI在2023年晚些时候发布了更强大的GPT-4 Turbo模型,以解决一个被称为“懒惰”的问题,因为该模型有时会拒绝回答提示问题。像GPT-4这样的大语言模型是通过从网络上收集的大量数据进行训练的,以权威的语调回应用户提示,呈现出类似人类语言模式的特点。这种语调以及所提供信息的质量可能会受到训练数据的影响,具体取决于OpenAI在开发和维护工作中所使用的数据更新或其他变化。目前,社交媒体Reddit上的几个论坛一直在抱怨GPT-4的退化和ChatGPT的糟糕输出。知情人士透露,OpenAI内部人士希望GPT-5更加可靠,给公众和企业客户留下深刻印象。与此同时,OpenAI还卷入了版权诉讼中。从技术上讲,AI模型的许多最关键训练数据都归版权所有者所有。OpenAI和许多其他科技公司都反对更新联邦法规,以限制大模型如何获取和使用这些材料。目前,OpenAI正在应对《纽约时报》等数据版权所有者发起的诉讼。截至发稿,OpenAI发言人尚未就此置评。 ... PC版: 手机版:

封面图片

GPT-5红队测试邮件曝光,最早6月发布?数十亿美元超算26年启动

GPT-5红队测试邮件曝光,最早6月发布?数十亿美元超算26年启动 此前有传闻说,GPT-5将于今年6月发布。看起来,红队测试与模型发布的时间线十分吻合。有网友直接晒出了自己收到OpenAI邮件邀请的截图。据悉,GPT-5早已为大家准备好,只是发布风险太大了,所以还得往后延。三个月就能用了?不过还有人表示,先别急,这些人只是收到了红队邀请测试而已,并没有提及具体模型。有可能是他们填了如下的申请信息之后,才收到了邮件。安全测试对于新版GPT如此重要的原因,一方面是ChatGPT已经有了非常大的用户数,如果在安全性上出问题,OpenAI可能也会面对像谷歌一样的舆论压力。另一方面,To B业务是OpenAI的主要收入来源,定制化的ChatGPT能大大增强各个企业的业务能力和效率。有人表示,红队测试会持续90-120天。如果此次红队测试就是针对GPT-5的话,那么三个月内,我们应该就能用上它了!而在坊间,这一传闻让群众们沸腾了!他们早已按捺不住对于GPT-5的猜测和畅想。比如,GPT-5的上下文窗口会达到多少?目前,Gemini 1.5 Pro是1M,Claude 3是200K,GPT-4是128K,不知道GPT-5会突破怎样的惊人纪录。大家纷纷列出自己对于GPT-5的愿望清单比如10Mtoken的上下文窗口,闪电般的快速干扰,长期战略规划和推理,执行复杂开放式操作的能力,GUI / API导航,长期情境记忆,始终处于隐形状态的RAG,多模态等等。有人猜,或许GPT-5会和Claude 3一样,提供几种不同的型号。有人总结了目前关于GPT-5和红队的最新谣言和传闻,大致要点如下-OpenAI预计于今年夏天发布GPT-5,部分企业客户已收到增强功能的演示;-GPT-5‘实质性更好’,相比GPT-4进行了重大升级。它需要更多的训练数据;-GPT-5的潜在功能包括生成更逼真的文本、执行翻译和创意写作等复杂任务、处理视频输入以及改进推理;-Sam Altman表示,GPT-5仍在训练中,没有确切的发布日期,广泛的安全测试可能还需数月。然而,他确认OpenAI今年将‘发布一个惊人的新模型’。在3月29日,获得内部信息的Runway CEO兼AI投资人Siqi Chen就称,GPT-5已经在推理方面取得了意想不到的阶跃函数增益。它甚至可以靠自己就独立地弄清楚,如何让ChatGPT不用每隔一天就登录一次。Ilya看到的东西,也许就是这个?这是不是就意味着,在OpenAI内部,已经实现了AGI?!如果是真的,这也太惊人了。‘我不相信,只有AGI才能实现这样的能力’。总之,网友们纷称,根据泄露的待办清单显示,OpenAI的下一项任务,就是发布GPT-5了!大家纷纷呼唤Altman,是时间放出GPT-5了,别太吹毛求疵了,我们要求不高。红队测试上阵,确保GPT-5安全早在23年9月,OpenAI就曾官宣招募一批红队测试人员(Red Teaming Network),邀请不同领域专家评估模型。不同领域专家组成的红队去寻找系统漏洞,成为确保下一代模型GPT-5安全的关键。那么,红队测试人员一般都需要做哪些工作?AI红队攻击的类型主要包括,提示攻击、数据中毒、后门攻击、对抗性示例、数据提取等等。‘提示攻击’是指在控制LLM的提示中注入恶意指令,从而导致大模型执行非预期的操作。比如,今年早些时候,一名大学生利用提示获取了一家大公司的机密信息,包括开发的AI项目的代码名称,以及一些本不应该暴露的元数据。而‘提示攻击’最大的挑战是,找到威胁行为者尚未发现、利用的新提示或提示集。红队需要测试的另一种主要攻击是‘数据中毒’。在数据中毒的情况下,威胁者会试图篡改LLM接受训练的数据,从而产生新的偏差、漏洞供他人攻击以及破坏数据的后门。‘数据中毒’会对LLM提供的结果产生严重影响,因为当LLM在中毒数据上接受训练时,它们会根据这些信息学习关联模式。比如,关于某个品牌、政治人物的误导性,或不准确信息,进而左右人们的决策。还有一种情况是,受到污染的数据训练后,模型提供了关于如何治疗常规疾病或病痛的不准确医疗信息,进而导致更严重的后果。因此,红队人员需要模拟一系列数据中毒攻击,以发现LLM训练和部署流程中的任何漏洞。除此以外,还有多元的攻击方式,邀请专家也是OpenAI确保GPT-5能够完成安全测试。GPT-5,真的不远了正如网友所言,红队测试开启,意味着GPT-5真的不远了。前段时间,Altman在博客采访中曾提到,‘我们今年会发布一款令人惊艳的新模型,但不知道会叫什么名字’。尽管如此,全网都一致地将OpenAI发布的下一代模型称为GPT-5,并有传言称代号为Arrakis的项目,就是GPT-5的原型。根据FeltSteam的预测,这个Arrakis的多模态模型,性能远超GPT-4,非常接近AGI。另外,模型参数据称有125万亿,大约是GPT-4的100倍,并在2022年10月完成训练。网友还总结了以往GPT系列模型发布时间表:GPT-1在2018年6月诞生,GPT-2在2019年2月,GPT-3在2020年6月,GPT-3.5在2022年12月,GPT-4仅在三个月后于2023年3月发布。关于GPT-5的发布时间,可能在今年夏天就问世。最近,网上流传的一张图上,显示了Y Combinator推出了GPT-5早期准入候补名单。网友发起疑问,我们都清楚奥特曼和YC的关系不同寻常。这是否意味着他们可以在模型或信息公开之前获得访问权限?而上月也有爆料称,已有用户对GPT-5上手体验过了,性能惊人。外媒透露,一些企业用户已经体验到了最新版的ChatGPT。‘它真的很棒,有了质的飞跃,’一位最近见识到GPT-5效果的CEO表示。OpenAI展示了,新模型是如何根据这位CEO公司的特殊需求和数据进行工作的。他还提到,OpenAI还暗示模型还有其他一些未公开的功能,包括调用OpenAI正在开发的AI智能体来自主完成任务的能力。GPT-5,一定是正确路线吗?不过,在万众瞩目期待GPT-5面世的呼声中,也有一些不一样的声音。比如有人觉得,GPT-5无法驾驶你的汽车,GPT-5无法解决核聚变问题,GPT-5无法治愈癌症……另外,我们对模型的追求,非得是更智能吗?更便宜、更快、更不费水电的模型,可能比单独的GPT-5更有革命性意义。有人同意这个观点,表示现在实在有太多人(尤其是开发者)过于痴迷GPT-5了。其实完全没必要这么狂热,使用当前的模型,就可以已经完成和构建太多东西。只需正确选择利基市场,构建满足该利基市场需求的AI产品,让用户可以直观地访问AI,专注于更好的UI/UX即可。公式很简单。我们真的有必要一味追求力大砖飞吗?很多人表示赞同,表示甚至用GPT-3.5就可以造出非常有价值的东西。问题不在于模型多先进,而在于怎样满足利基市场的需求。智算中心,先从小的建起而3月底曝出的用于训练GPT-6的千亿美元‘星际之门’超算,今天又被外媒挖出了更多新的内容。上周五,外媒The Information曝出了一个惊人消息:OpenAI和微软正在制定一项雄心勃勃的数据中心项目,预计耗资1000亿美元。此消息一曝出,AI和云计算行业人士的提问,像雪片一样袭来数据中心具体位于美国的哪个地区?为此,The Information又挖出了更多料,具体细节如下。首先,之前的消息说是星际之门最早在2028年启动,而最新消息显示,最快在2026年,就会在威斯康星州启动一个功率较小的数据中心。它的价值当然不到千亿美元,但估计仍会耗资数十亿。其他细节如下用英伟达芯片,但不用英伟达网线首先,这次数据中心的多数服务器机架,当然主要还是用的英伟达芯片。不过有趣的是,将各个AI芯片服务器连接起来的网线,则并不会采用英伟达的产品。据悉,OpenAI已经告知微软,自己不想再使用英伟达的InfiniBand网络设备。相反,它可能会使用基于以太网的电缆... PC版: 手机版:

封面图片

为什么OpenAI更有可能在今年发布GPT-4.5而不是GPT-5?

为什么OpenAI更有可能在今年发布GPT-4.5而不是GPT-5? 据人工智能安全中心(Center for AI Safety)主任丹-亨德里克斯(Dan Hendrycks)称,OpenAI 的 GPT LLM 每迭代一次,所需的计算资源就增加 10 倍。因此,如果 OpenAI 跳过 GPT-4.5,直接跳到 GPT-5,那么计算需求将比 GPT-4 增加约 100 倍,相当于约 100 万个 H100 芯片连续运行三个月。Anthropic公司首席执行官达里奥-阿莫代(Dario Amodei)最近指出,目前培养一名最先进的 LLM 需要花费约 10 亿美元,预计到 2025/26 年,这一成本将激增到 50 亿到 100 亿美元之间。重要的是,10 亿美元的培训成本与 GPT-4.5 可以合理推断出的 10 倍计算资源激增相吻合。我们最近注意到,英伟达今年部署的 H100 设备预计年耗电量约为13000 GWh,相当于立陶宛和危地马拉等国的年耗电量。到 2027 年,全球数据中心的耗电量预计将达到85 到 134 太瓦时(TWh)!我们之前提到过,GPT-4 的竞争对手正在迅速迎头赶上。Meta公司的Llama 3 LLM(700亿参数)目前在Arena排行榜上排名前五。重要的是,Llama 3 现在已经超越了所有其他开源 LLM,这还是在没有即将推出的 4050 亿参数模型的情况下。此外,一些专家现在认为,GPT-5 必须改变"原始课程",其中包括利用"不完善的人类对话"和整体"幼稚"的训练过程。这与我们最初的观点不谋而合,即 OpenAI 很可能会在今年发布一个迭代的 GPT-4.5 模型,而不是在 GPT-5 中彻底改变赌注。 ... PC版: 手机版:

封面图片

奥特曼“剧透”OpenAI发布会:不是GPT-5也不是搜索引擎 媒体爆料是语音助手

奥特曼“剧透”OpenAI发布会:不是GPT-5也不是搜索引擎 媒体爆料是语音助手 对于媒体的置评请求,OpenAI未予回应。随后媒体报道称,OpenAI即将展示一款AI语音助手,可识别物体和图像,逻辑推理能力超越现有产品。奥特曼希望让现有的语音助手,如苹果Siri,更加实用。OpenAI已向部分客户展示了新产品,显示逻辑推理能力相较于现有产品有了显著提升。尽管奥特曼已经否认OpenAI会在周一的演示中发布搜索引擎,但他并未否认公司正在研发相关的搜索产品。近期有传闻称,OpenAI正在积极研发自家搜索产品,意图与Google的搜索引擎竞争,而这一搜索产品可能会得到微软必应的支持。根据另一篇报道,这款产品将具备网络搜索能力,并在结果中提供信息来源。该文还指出,搜索功能的一个版本将能够显示与用户查询相关的图表或其他图解。有消息称,OpenAI甚至尝试挖角Google的员工来帮助开发这款搜索引擎。关于备受瞩目的大语言模型GPT-5,据此前报道,预计该模型将在今年夏天左右发布。此外,人工智能界的关注者可能还会在周一的发布会上密切关注是否会有关于OpenAI首席数据科学家伊利亚·萨斯克沃(Ilya Sutskever)的更多信息。自从奥特曼作为首席执行官被解雇又复职以来,萨斯克沃在公司内几乎无所踪迹。 ... PC版: 手机版:

封面图片

OpenAI CTO:GPT-5可能会在2025年底或2026年初推出

OpenAI CTO:GPT-5可能会在2025年底或2026年初推出 人工智能能力的重大飞跃人们早已期待着ChatGPT的下一个主要模型,而 GPT-5 将带来 AI 能力的实质性飞跃。OpenAI 首席技术官Mira Murati在接受 Dartmouth Engineering 采访时对其潜力提供了新的见解,该采访在 X 上分享。Murati 将从 GPT-4 到 GPT-5 的进步比作从高中水平到大学水平的理解的增长,表明模型的复杂程度和能力得到了显著增强。GPT-5 概述GPT-5 在开发阶段的内部代号为Gobi和Arrakis,受到行业分析师的密切关注。在 2024 年洛杉矶 Berggruen Salon 上,微软首席技术官 Kevin Scott 强调了 GPT-5 通过复杂考试的潜力,反映了推理和解决问题方面的重大改进。他还指出,进入人工智能领域的门槛正在降低,这使得更强大的工具更容易被更广泛的受众所使用。GPT-5 的培训将于 2023 年 12 月开始,预计将于 2024 年美国大选后公开发布。艾伦·汤普森 (Alan D. Thompson) 是人工智能专家,也是财富 500 强企业、主要政府和联合国成员国的顾问,他创建了一个综合的大型语言模型数据库。在最近的时间线评论之前,汤普森曾预测会公开发布 GPT-5 将于 2024 年 12 月美国大选后推出。时间表和延迟当被问及发布时间表时,Murati 表示 GPT-5 可能会在 2025 年底或 2026 年初推出。这与之前的传言有所不同,之前的传言称最早将于 2023 年底推出,后来调整为 2024 年夏天。推迟的时间表可能会让那些渴望下一次重大进展的人感到失望。然而,穆拉蒂的澄清表明,额外的时间将使 OpenAI 能够开发出比之前预期更强大、更智能的系统。OpenAI 首席执行官Sam Altman最近出现在 All-In 播客中,他强调 GPT-5 没有固定的时间表。Altman 提到,下一次迭代甚至可能不会被称为 GPT-5,这强调了该项目的流动性以及对质量的重视,而不是遵守严格的时间表。GPT-5 旨在实现博士级智能Murati 声称 GPT-5 将在某些任务上实现博士级的智能,这一说法得到了业内领袖此前声明的支持。微软首席技术官 Kevin Scott 表示,由于记忆力和推理能力的提升,下一代人工智能系统将能够通过博士学位考试。Murati 也表达了同样的看法,但她强调,这种高水平的表现将针对特定任务。当前的人工智能系统在某些领域已经展现出人类水平的能力,而GPT-5旨在进一步扩展这些能力,在复杂场景中展示高级推理和知识应用。 ... PC版: 手机版:

封面图片

OpenAI CTO:Sora今年将发布 会添加语音功能

OpenAI CTO:Sora今年将发布 会添加语音功能 以下为翻译全文:某个清晨醒来时,你是否曾幻想过一头公牛在精致的瓷器店中悠然自得地行走的场景?要实现这一奇幻景象,你有三种途径:A)联系当地的动物驯养师以及知名家居品牌Crate & Barrel;B)雇请顶尖的好莱坞动画制作人;C)使用神奇的AI工具Sora,简单输入指令即可。欢迎进入人工智能的下一个“魔法世界”。在这里,你的语言能够化作逼真、流畅且细腻的视频画面。OpenAI计划在今年晚些时候向大众推出其文本到视频的转换工具Sora。尽管正式发布尚需时日,但OpenAI已经向我们揭示了这款工具的惊人潜力:仅需精心设计的文本指令,便可创造出几乎足以替代许多视频制作专业人员的作品。《华尔街日报》专栏作家乔安娜·斯特恩(Joanna Stern)向该公司提交了几条由她自己编写的提示,比如一条美人鱼和她的螃蟹伙伴评测智能手机,或是一头公牛在精致的瓷器店内自由漫步。斯特恩随后亲身体验了Sora的神奇之处,她利用这款工具制作了一段模拟对OpenAI首席技术官穆拉蒂进行虚拟视频采访的片段,两人深入剖析了这些有趣的问题,并对该技术的潜在问题进行了探讨。OpenAI在上个月首次展示了用其生成式人工智能工具制作的视频预览,整个互联网为之沸腾。与之前那些断断续续、分辨率低下的人工智能视频技术相比,Sora生成的内容无疑是一场视觉盛宴,堪比高品质的自然纪录片或大制作电影。与之前的人工智能技术相似,Sora首先让我们对其能力感到惊叹,随即又担忧其对社会的影响。面对斯特恩的担忧,穆拉蒂向她保证,OpenAI在发布这一强大工具时将采取慎重的步骤。但这并不意味着一切都将无忧无虑。这些超逼真视频真的是Sora生成的吗?斯特恩对Sora生成的视频感到深深震撼:从无人机视角拍摄的意大利阿马尔菲海岸的壮观景色,到手持自拍杆的柯基犬,再到冲浪板上活泼的动画水獭,这些画面无一不展示了Sora在创意和细节处理上的强大能力。她进一步挑战Sora,要求它生成更接近日常生活的场景:“两名30多岁、棕发的职业女性在一个明亮的演播室里坐下接受新闻采访。”Sora生成的视频中,两位女性的嘴唇和头发动作自然流畅,皮夹克的细节也清晰可见。穆拉蒂透露,这段20秒长、720P分辨率的视频仅用了几分钟就完成了生成,尽管目前还未加入声音。但她承诺,OpenAI正在计划为Sora增添语音功能。为了对比Sora与其他工具的区别,斯特恩也在另一个AI视频生成器Runway上输入了相同的提示。然而,得到的结果大相径庭,Runway生成的画面是两个模糊、幽灵般的女性形象,它们看起来像是直接从恶梦中走出来的,令人毛骨悚然。那么,Sora究竟是如何实现这一神奇转换的呢?尽管解释其内部工作原理可能比解释美人鱼的进化还要复杂,但简单来说,Sora背后的AI模型通过分析大量视频数据,学会了识别和理解各种物体与动作。输入文本提示后,模型能够迅速勾勒出整个场景的基本轮廓,并逐帧添加细节。行业观察人士和竞争对手,包括Runway的首席执行官,都认为OpenAI的这些显著成就归功于其巨大的计算资源和庞大的训练数据量。但OpenAI最近也面临着版权侵犯的指控,因未经授权使用大量在线内容训练其ChatGPT模型。当被问及OpenAI为训练Sora使用了哪些数据时,穆拉蒂表示:“我们主要使用了公开可获取的数据及已授权数据。”。当被进一步追问这些数据是否包括YouTube、Instagram和Facebook上的视频时,穆拉蒂表示她并不清楚具体细节,但后来确认,已授权的材料确实包含了知名版权图片网站Shutterstock上的内容。人工智能模型对普通用户来说往往是个神秘的黑匣子。我们看到的是输入和输出,而中间的处理过程则不得而知。因此,我们可能永远无法完全理解为何生成的内容展现出某些特定的风格或特征。例如,斯特恩提到的那条美人鱼身旁的甲壳类伙伴留着类似《海绵宝宝》中蟹老板的胡须,这是否是模型的创新还是某种偶然?穆拉蒂还告诉斯特恩,当前Sora生成视频的成本远高于该公司的图像生成器Dall-E。但她承诺,在Sora正式向公众发布前,团队将对其进行优化,以降低计算资源消耗。如何识别人工智能生成视频?在当前的早期阶段,人工智能生成的内容中还存在一些明显的瑕疵。例如,在Sora生成的采访视频中,一位浅发色女子的一只手似乎多出了五根手指。对此,穆拉蒂解释道:“准确再现手部运动真的很难。”在另一次测试中,斯特恩期望看到一个机器人从电影制片人手中夺走摄像机的场景。但Sora生成的是一位人类电影制片人突变成机器人,场面显得突兀且不自然。更有甚者,背景中的黄色出租车也不知怎的变成了银色轿车。穆拉蒂承认模型“在维持连贯性方面表现尚可,但并不完美”。这引出了一个深刻的议题:当这些缺陷得到修正,人工智能生成的视频愈发逼真时,我们如何区分真实与人工智能生成的视频?Sora生成的每个视频下方都会有一个水印。穆拉蒂解释说,最终这些视频还将包含元数据,以标示其生成方式和来源。此外,OpenAI设有一个名为“Sora红队”的安全测试小组。该团队的职责是提供各种提示,探索潜在的漏洞、偏见和其他可能的有害结果。穆拉蒂说:“这就是我们目前还没有广泛部署这些系统的原因。我们需要先弄清楚这些问题,然后才能放心地将其推向市场。”就Sora的提示词政策而言,穆拉蒂透露,它可能借鉴OpenAI的另一工具Dall-E的做法。例如,为了防止滥用和侵犯隐私,用户将无法使用Sora来生成公众人物的形象。当斯特恩试图输入“在任美国总统的电视新闻画面”时,Sora拒绝了这一请求。斯特恩也尝试让Sora生成“在东欧小镇上行走的士兵”的视频,但也遭到了拒绝。对于裸露等敏感内容的提示,穆拉蒂表示OpenAI正在与艺术家和专家紧密合作,共同探讨如何在不阻碍创意表现的同时,设立合理的“护栏和限制”。将与好莱坞合作随技术发展,像Sora这样的AI工具将变得更强大、更精细。这种进步可能会改变传统的工作方式,如无人机操作员或插画家的角色,引起好莱坞既期待又忧虑的反响。演员、电影制片人和工作室老板泰勒·佩里(Tyler Perry)表示,看到Sora的潜力后,他宣布暂停耗资8亿美元的工作室扩建计划。他认为这项技术能够削减布景和外景拍摄的成本,但同时也对电影行业和演员的未来抱有担忧。代表好莱坞和全美各地动画艺术家的动画协会主席珍妮特·莫雷诺·金(Jeanette Moreno King)也称,尽管艺术创作决策仍需人类参与和判断力,未来却是充满不确定性的迷雾。爱德华·萨奇(EdwardSaatchi)及其人工智能视频工作室Fable正梦想打造一个AI版Netflix:仅需输入一段文本提示,便可呈现完整的电视剧集。对于Sora对视频制作行业的潜在影响,穆拉蒂重申了OpenAI采取的缓步审慎策略。她表示,OpenAI正在与行业内部人士合作,进行早期的测试和反馈征集,希望全球的电影制作者和创作者能加入这一探索过程,共同促进电影产业的发展。如果将OpenAI比作一开始提到的那头在瓷器店里自由漫步的公牛,那么它目前可能需要小心行事。但最终,它可能不可避免地将带来一些破坏。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人