谷歌CEO皮查伊深度解析谷歌史上最强大模型Gemini及即将到来的人工智能时代

谷歌CEO皮查伊深度解析谷歌史上最强大模型Gemini及即将到来的人工智能时代从那以后的几年里,皮查伊就开始将人工智能技术逐渐融入到谷歌的所有产品中,从安卓设备一直到云计算。尽管如此,谷歌最近的风头逐渐被OpenAI抢走,后者于去年推出的DALL-E和GPT-3.5,以及今年推出的GPT-4,主导了整个人工智能行业,并引发了初创公司和科技巨头之间的激烈竞争。Gemini现在是这场竞争的最新加入者。该系统由谷歌DeepMind领导,这是一个由德米斯·哈萨比斯(DemisHassabis)领导的新整合部门。现在,我们已经可以在谷歌聊天机器人Bard中体验Gemini,它将在2024年整合到谷歌的产品线中。在Gemini发布前夕,《麻省理工学院技术评论》杂志在谷歌位于加州山景城的办公室采访了皮查伊,讨论了该模型对谷歌、其产品、人工智能和整个社会的意义。以下为专访内容:问:为什么Gemini如此令人兴奋?你能告诉我你对人工智能的总体看法吗?它的力量,它的用处,它在你们所有产品中的发展方向?皮查伊:Gemini令人兴奋的一个特别之处在于,它从一开始就是一个原生的多模式模型。就像人类一样,它不仅仅是在文本上学习,还可以通过视频、音频和代码学习。因此,这个模型天生就能力更强,我认为这将帮助我们梳理出更新的功能,并为该领域的进步做出贡献。这太令人兴奋了。另一个让人觉得兴奋的地方是,Gemini在32个主要基准测试中,有30个都是表现最好的,尤其是在多模式基准测试中。在MMLU(大规模多任务语言理解)测试中,它显示了更大的进步。我个人认为,作为领先基准之一的MMLU,Gemini突破了90%的门槛,这是一个重大的里程碑。两年前的水平是30%,随后是40%。由此可以看出,这个领域取得了多大的进步。在57项测试中,Gemini的表现在89%的时候相当于人类专家。这是第一个跨越这个门槛的模型。我也感到很兴奋,因为Gemini终于进入了我们的产品。它将对开发者开放。这是一个平台。人工智能是一个深刻的平台变革,比网络或移动变革更大。因此,从那一刻起,这对我们来说代表着迈出了一大步。问:让我们从这些基准开始。Gemini似乎在几乎所有测试方面都领先于GPT-4,但并不是遥遥领先。而GPT-4似乎是一个很大的飞跃。我们是否开始在这些大语言模型技术所能做到的事情上趋于停滞,或者你认为我们将继续拥有巨大的增长空间?皮查伊:首先,展望未来,我们确实看到了很大的增长空间。有些基准已经很高了。你必须意识到,当你试图从85%开始突破的时候,你已经处于曲线的边缘。虽然看起来不是很多,但那的确代表正在取得进展。我们还需要更新的基准测试,这也是我们研究MMLU多模式基准的部分原因。对于其中一些新的基准,目前的技术水平仍然要低得多,未来还有很大进步空间。比例定律仍然有效:当我们把模型做大的时候,就会有更多的进展。当我把它放在整体上看时,我真的觉得我们才刚刚开始。问:我很感兴趣的是你认为Gemini的关键突破是什么,以及它们将被如何应用?皮查伊:人们很难想象将会发生什么样的飞跃。我们正在提供应用程序开发接口(API),人们会以非常深刻的方式去体验它。我认为多模式基准将大有发展。随着我们教会这些模型更多地进行推理,将会有越来越大的突破,而且更深层次的突破还在后头。解决这个问题的一种方法是GeminiPro,它在基准测试中表现非常好。但当我们把它放进Bard时,我可以作为一个用户感受到这一点。我们一直在测试它,所有类别的好评率都有相当大的提升。为此,我们称它为我们迄今最大的升级之一。当我们同时进行并行评估时,它确实显示出了优异的表现。所以你让这些更好的模型在基准上得到改进,它会取得进步。我们会继续训练,然后继续学习。但我迫不及待地想把Gemini应用到我们的产品中。这些模型功能非常强大。在接下来的几个月里,真正设计产品体验以利用所有模型所拥有的东西将是令人兴奋的。问:Gemini几乎在所有方面都胜过GPT-4,但只是领先了一点点?我想知道你们从GPT-4的发布中学到了什么?你学到了什么?在这段时间内,哪些方法发生了变化?皮查伊:至少在我看来,这与零和游戏相去甚远。想想看,向人工智能的转变是多么深刻,我们还处于早期阶段,前方的世界充满机遇。但对于你的具体问题,这是一个我们都在快速进步的领域。我们发表了很多文章,看看像GPT-4这样的模型在现实世界中是如何工作的。我们从中吸取了教训。安全是一个重要的领域。所以在Gemini项目中,我们已经学习并改进了一些安全技术,这些技术是基于模型在现实世界中的运作方式改进的。它表明了微调等各种事情的重要性。我们在Med-PaLM2中展示的一件事是,采用一个像PaLM这样的模型,对它进行微调,以适应特定的领域,显示它可以胜过最先进的模型。这就是我们学习微调力量的一种方式。当我们研究Gemini的时候,这其中的很多经验都被用到了。我们花更多时间研发GeminiUltra(更先进的Gemini将于明年上市)的部分原因是为了确保我们对其进行了严格的安全测试。但我们也在对它进行微调,以真正梳理它的功能。问:当你看到这些模型被发布出来,人们开始在现实世界中测试它们时,发现它们会产生幻觉,或者会透露某些模型训练的私人数据。我想知道,考虑到其所使用的数据,如果这是不可避免的,那么这在技术中有多少是固有的。如果这是不可避免的,你会尝试做哪些事情来限制它?皮查伊:你是对的。这些都是活跃的研究领域。事实上,我们刚刚发表了一篇论文,展示了这些模型如何通过一系列提示来泄漏训练数据。幻觉还不是一个可以解决的问题,但我认为我们都在取得进展,只是还有更多的工作要做。我们需要克服一些基本的限制。举个例子,如果你用GeminiUltra,我们正在积极地将这些模型与外部第三方合作,他们是这些方面的专家。在多模式等领域,我们想要更大胆,我们想要负起责任。我们将更加小心多模式模型的推出,因为错误用例的可能性更高。但你是对的,它仍然是一项正在开发中的技术,它们不会对所有事情都有意义,在搜索中,我们会更加小心地考虑如何使用它,何时使用,在哪里使用,以及何时触发它。它们有很多惊人的能力,但也有明显的缺点。这是摆在我们所有人面前需要解决的艰巨挑战。但未来的人工智能系统可能与我们今天拥有的不一样,这就像有人认为你不可能把电脑装进口袋一样。同样地,看着这些系统,说你无法再设计出更好的系统,我不同意这种观点。已经有许多研究探索正在进行中,思考如何解决这些问题。问:你认为人工智能将带来深刻的变革。在最近的一些转变中,比如向移动设备的转变,它并不一定会提高生产率,这在很长一段时间内,生产率一直保持未变。还有一种观点甚至认为,它甚至可能加剧了收入不平等。谷歌正在做什么样的工作来确保这种转变对社会更有益?皮查伊:这是个非常重要的问题。我从几个层面上思考这个问题。在谷歌,我们一直关注的一件事是:我们如何让技术尽可能广泛地使用?我认为,即使是在移动领域,我们利用安卓做了很多工作,但仍有数亿人依然无法使用手机。我们正在努力推出一款价格合理的智能手机,价格可能低于50美元。所以,让人工智能对每个人都有帮助是我考虑的重点。你试着让尽可能多的人接触到你。我认为这是其中的一部分。我们正在深入思考如何将人工智能应...PC版:https://www.cnbeta.com.tw/articles/soft/1402639.htm手机版:https://m.cnbeta.com.tw/view/1402639.htm

相关推荐

封面图片

谷歌最新人工智能模型 Gemini Pro 已在欧洲上市,将与 ChatGPT 竞争

谷歌最新人工智能模型GeminiPro已在欧洲上市,将与ChatGPT竞争谷歌表示,GeminiPro是谷歌最大的人工智能(AI)模型之一,作为巴德(Bard)的升级版,现已向欧洲用户开放。该模型是一个多模态大模型,这意味着它可以理解和组合不同类型的信息,如文本、代码、音频、图像和视频。通过Gemini,谷歌希望能与OpenAI的热门聊天机器人ChatGPT进行竞争。

封面图片

中信证券:谷歌 Gemini 模型发布,AI 进入多模态时代

中信证券:谷歌Gemini模型发布,AI进入多模态时代中信证券研报指出,近日,谷歌宣布发布新一代大模型Gemini,再次引发市场对人工智能产业的持续关注。Gemini模型作为谷歌以及全球范围内最先发布的多模态模型,在性能上是第一个在MMLU上超越人类专家的模型。模型根据体量大小分为GeminiUltra、GeminiPro、以及GeminiNano三个版本,支持在云端以及边缘测运行。同时谷歌同步发布最新版本的计算芯片TPUv5p,相较上一代TPUv4性价比提升2.3倍。我们认为,多模态Gemini模型的正式发布,一方面可以拓宽应用场景的拓展,另一方面能够带来算力需求的持续升级。我们持续看好后续AI产业的前景,认为后续GPT-5等模型的发布亦将带来更多的催化。

封面图片

迄今最大、能力最强的人工智能模型 —— 谷歌 Gemini 发布

迄今最大、能力最强的人工智能模型——谷歌Gemini发布Gemini是首个从头构建的多模态模型,可以实现跨文本、代码、图像、音频和视频的无缝理解。Gemini1.0从大至小拥有Ultra、Pro、Nano(3.25B/1.8B)三个尺寸。GeminiUltra的性能优于如今所有模型,在32个广泛使用的学术基准测试中的30个表现出了最先进水平,并且是第一个在MMLU(57个学科)上超越人类专家的AI。GeminiPro的性能与Claude2相当,优于GPT-3.5。Gemini能够原生生成图像,而不必依赖中间自然语言描述(转述会导致信息丢失)。Gemini全型号的音频理解优于Whisper。今天开始Bard将由GeminiPro的微调版本驱动。Pixel8Pro将成为第一款运行GeminiNano的手机。GeminiUltra目前正在接受安全评估还有人类反馈强化学习的进一步完善,将在明年初与提供尖端AI服务的BardAdvanced一同推出。Apple附体投稿:@TNSubmbot频道:@TestFlightCN

封面图片

谷歌 Gemini 大模型明年将嵌入安卓手机

谷歌Gemini大模型明年将嵌入安卓手机谷歌对人工智能大模型应用于智能手机的前景充满乐观。谷歌Pixel部门产品管理副总裁布莱恩・拉科夫斯基(BrianRakowski)日前预计,谷歌更先进的Gemini大模型明年将嵌入智能手机。目前谷歌在其Pixel设备和具有条件的安卓设备上提供了Gemini的小版本GeminiNano。而Gemini的更高级版本目前只能通过云访问,拉科夫斯基预计,这些版本将于2025年开始在安卓手机上提供。(澎湃新闻)

封面图片

谷歌医学大模型 Med-Gemini 在基准测试中超越人类医生

谷歌医学大模型Med-Gemini在基准测试中超越人类医生谷歌研究院和DeepMind周一发表了一篇论文详细介绍了医学专用大模型Med-Gemini的惊人能力。该模型打破了多项基准测试的记录,并在多个任务中超越人类医学专家。Med-Gemini以Gemini大模型为基础进行了针对医学知识的微调。谷歌还为该模型提供了网络搜索能力,模型除了在不确定答案时可以引用搜索结果作为参考外,还可以使用网络搜索进行自我学习,对模型进行持续微调,以学习最新的医学知识。而结合Gemini超长上下文的能力和推理链的设计,该模型可以处理数十万词构成的复杂病例医学记录。其多模态能力则可以使其处理病理学图片和影像学图像在内的多种医疗数据。谷歌认为该研究结果为Med-Gemini的潜力提供了令人信服的证据,但在医疗这个安全关键领域进行实际部署之前,进一步严格的评估至关重要。——,

封面图片

谷歌重新命名了其聊天机器人,将Bard重新命名为Gemini,并推出了一项新的订阅计划,该计划将使人们能够访问其最强大的人工智能

谷歌重新命名了其聊天机器人,将Bard重新命名为Gemini,并推出了一项新的订阅计划,该计划将使人们能够访问其最强大的人工智能模型,使其与竞争对手OpenAI直接竞争。其中一个版本将继续免费提供,但愿意每月支付19.99美元的用户将可以使用谷歌Gemini系列人工智能模型中最先进的工具Ultra1.0。谷歌CEO皮查伊称,Gemini模型将进入工作领域和云产品领域。2024年是“Gemini”时代的开始。Gemini将为“许多产品”提供动力。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人