超越GPT4!谷歌大杀器终于来了 最大规模Gemini震撼发布
超越GPT4!谷歌大杀器终于来了最大规模Gemini震撼发布这次发布的Gemini大模型是原生多模态大模型现在,Google的类ChatGPT应用Bard已经升级到了GeminiPro版本,实现了更为高级的推理、规划、理解等能力,同时继续保持免费。Google预计在明年初将推出“BardAdvanced”,其将使用GeminiUltra。这是Bard问世以来最大的更新。自ChatGPT发布以来,我们一直对Google声称的竞品Gemini模型的能力非常好奇,这款大模型早在今年3月就有了风声,5月的I/O大会上进入“即将推出”的状态。随着知情人士不断透露新信息,我们能了解到:据说Gemini有万亿参数,训练动用的算力是GPT-4的五倍。但Gemini的正式发布却似乎因为各种原因而屡遭推迟。为了与OpenAI和微软展开竞争,Google果断从PaLM2切换到了Gemini上,甚至在今年4月份直接把Google大脑(GoogleBrain)和DeepMind合并在了一起,Gemini就由新组成的GoogleDeepMind汇合两个实验室的力量进行攻关。可见Google在大模型军备竞赛上孤注一掷的心态。那么,Gemini真的能够给我们带来惊喜吗?除了在各种Benchmark上拿到最优成绩,甚至超越人类以外,有趣的是,在新闻发布会上,面对记者有关“Gemini相比以前的大模型有哪些新能力”的提问,GoogleDeepMind产品副总裁EliCollins回答说:“我怀疑有”,表示Google仍然在努力了解GeminiUltra的全部能力。以下为GoogleCEO皮查伊的声明:每一次技术变革都是推进科学发现、加速人类进步和改善生活的机会。我相信我们现在所看到的人工智能转变将是我们一生中最深刻的转变,远远大于之前向移动或网络的转变。人工智能有潜力为世界各地的人们创造从日常生活到非凡的机会。它将带来新一波的创新和经济进步,并以前所未有的规模推动知识、学习、创造力和生产力。这让我感到兴奋:有机会让人工智能为世界各地的每个人提供帮助。作为一家人工智能优先的公司,我们已经走过了近八年的历程,进步的步伐只会不断加快:数百万人现在在我们的产品中使用生成式人工智能来完成一年前无法完成的事情,从寻找答案到更复杂的问题使用新工具进行协作和创造的问题。与此同时,开发人员正在使用我们的模型和基础设施来构建新的生成式人工智能应用程序,世界各地的初创公司和企业正在利用我们的人工智能工具不断成长。这是令人难以置信的势头,然而,我们才刚刚开始触及可能性的表面。我们正在大胆而负责任地开展这项工作。这意味着我们的研究要雄心勃勃,追求能够为人类和社会带来巨大利益的能力,同时建立保障措施并与政府和专家合作,应对人工智能变得更加强大的风险。我们将继续投资最好的工具、基础模型和基础设施,并在我们的人工智能原则的指导下将它们引入我们的产品和其他产品中。Google大模型Gemini正式发布GoogleDeepMindCEO和联合创始人DemisHassabis代表Gemini团队正式推出了大模型Gemini。Hassabis表示长久以来,Google一直想要建立新一代的AI大模型。在他看来,AI带给人们的不再只是智能软件,而是更有用、更直观的专家助手或助理。今天,Google大模型Gemini终于亮相了,成为其有史以来打造的最强大、最通用的模型。Gemini是Google各个团队大规模合作的成果,包括Google研究院的研究者。特别值得关注的是,Gemini是一个多模态大模型,意味着它可以泛化并无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。Google表示,Gemini还是他们迄今为止最灵活的模型,能够高效地运行在数据中心和移动设备等多类型平台上。Gemini提供的SOTA能力将显著增强开发人员和企业客户构建和扩展AI的方式。目前,Gemini1.0提供了三个不同的尺寸版本,分别如下:GeminiUltra:规模最大、能力最强,用于处理高度复杂的任务;GeminiPro:在各种任务上扩展的最佳模型;GeminiNano:用于端侧(on-device)任务的最高效模型。Google对Gemini模型进行了严格的测试,并评估了它们在各种任务中的表现。从自然图像、音频和视频理解,到数学推理等任务,GeminiUltra在大型语言模型研发被广泛使用的32个学术基准测试集中,在其中30个测试集的性能超过当前SOTA结果。另外,GeminiUltra在MMLU(大规模多任务语言理解数据集)中的得分率高达90.0%,首次超越了人类专家。MMLU数据集包含数学、物理、历史、法律、医学和伦理等57个科目,用于测试大模型的知识储备和解决问题能力。针对MMLU测试集的新方法使得Gemini能够在回答难题之前利用其推理能力进行更仔细的思考,相比仅仅根据问题的第一印象作答,Gemini的表现有显著改进。在大多数基准测试中,Gemini的性能都超越了GPT-4。更多细节,请查看详细的测试报告:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf在最新版本的MMMU测试集中,GeminiUltra也取得了得分为59.4%的最佳成绩。增强版的测试集由需要慎重推理的多模态任务组成。在图像基准方面的测试中,GeminiUltra不需要从图像中提取文本就能进行OCR处理,这凸显了Gemin内置的强大多模态能力,也初步显示了Gemini具有更复杂推理能力的先兆。下一代全方位能力升级Gemini在设计时原生地支持多模态,从一开始便在不同模态上进行了预训练,然后利用额外的多模态数据进行微调以提升有效性。因此,Gemini能够无缝地理解和推理各种输入,远远优于现有多模态模型,并且它的能力在几乎每个领域都是最强的。复杂推理能力Gemini1.0具有复杂多模态推理能力,可以帮助理解复杂的书面和视觉信息。这使得它尤其擅长发现海量数据中难以辨别的知识。Gemini1.0通过阅读、过滤和理解信息具有了从数十万份文件中提取insights的超凡能力,这有助于科学、金融等诸多领域以超快的速度取得新突破。同时理解文字、图像、音频以及更多模态的信息经过训练,Gemini1.0可以同时识别和理解文本、图像、音频等,因此它能够更全面地理解输入中信息的细节,也能回答与复杂主题相关的问题。因此,它特别擅长对数学和物理等复杂学科的问题进行推理。如下图所示,一位老师画了一个滑雪者从斜坡上下来的物理问题,而一位学生则提出了一个解决方案来计算滑雪者在斜坡底部的速度。利用Gemini的多模态推理能力,该模型能够读懂凌乱的笔迹,正确理解问题的表述,将问题和解决方案都转换为数学公式,识别出学生在解决问题时出错的具体推理步骤,然后给出问题的正确解决方案。高级编码Gemini可以理解、解释和生成流行编程语言(如Python、Java、C++、Go)的高质量代码,具备强大的跨语言工作和推理复杂信息的能力使其成为世界领先的编码基础模型之一。GeminiUltra在多个编码基准测试中表现出色,包括HumanEval(用于评估编码任务性能的重要行业标准)和Natural2Code(Google内部数据集),该数据集使用作者生成的源代码而不是基于网络的信息。Gemini还可以用作更高级编码系统的引擎。两年前,Google推出了AlphaCode,这是第一个在编程竞赛中达到竞争性水平的人工智能代码生成系统。使用Gemini的专门版本,Google创建了更先进的代码生成系统AlphaCode2,它擅长解决超出编码范围、涉及复杂数学和理论计算机科学的竞争性编程问题。经过与原始AlphaCode在相同平台上进行评估,AlphaCode2展现出巨大的改进,解决的问题数量几乎是原来的两倍。专用TPU训练Google使用内部设计的张量处理单元(TPU)v4和v5e在人工智能优化基础设施上对Gemini1.0进...PC版:https://www.cnbeta.com.tw/articles/soft/1402613.htm手机版:https://m.cnbeta.com.tw/view/1402613.htm
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人