谷歌发布史上最大的视觉语言模型 PaLM-E

谷歌发布史上最大的视觉语言模型 PaLM-E 谷歌 PaLM-E 有着5620亿参数 (ChatGPT 为1750亿参数) ，结合了 PaLM-540B 语言模型与 ViT-22B 视觉模型。将现实世界的连续传感器模态直接纳入语言模型，"为AI移植眼睛"从而建立单词和感知之间的联系。 PaLM-E 直接从机器人摄像头获取原始图像数据，并根据自然语言指令进行动作规划和执行，这样就避免了人工预处理或标注数据的需要，可以端到端自主学习这些任务。研究团队同时发现： 1. 语言模型越大，在视觉语言和机器人任务训练时就越能保持其语言能力，PaLM-E 的5620亿的参数量刚好让它保留住了几乎所有语言能力。 2. "通才AI"的正迁移能力，同时在多个任务领域训练的 PaLM-E，单任务能力相比"专精AI"显着提高。 3. 除了人机交互方面有着重大进展，团队还发现了 PaLM-E 有着诸如多模态思维链推理和多图像推理等新兴能力，在 OK-VQA 视觉问答基准测试上达成了新的 SOTA (最佳水平AI)。

在Telegram中查看

相关推荐

【Hayo AI 支持 Google Palm】很高兴的向大家宣布，Google-PaLM2 语言模型的使用权限现已「免费」向所

【Hayo AI 支持 Google Palm】很高兴的向大家宣布，Google-PaLM2 语言模型的使用权限现已「免费」向所有 Hayo AI 用户开放，您可以在 AI Chat 界面切换到该模型。PaLM2是由Google开发的语言模型，它在高级推理任务方面表现出色，包括代码和数学运算、分类和问答、翻译和多语言能力以及自然语言生成等。此外，PaLM2还衍生出了Bard、PaLM API等模型。关于该模型的更多介绍，您可以参照：消息来源： via 匿名标签: #Hayo 频道: @GodlyNews1 投稿: @GodlyNewsBot

今天的大新闻让我们瞥见未来，Google 公布了 PaLM-E 具身语言模型，B 参数，将现实世界的信息通过传感器纳入语言模型，

今天的大新闻让我们瞥见未来，Google 公布了 PaLM-E 具身语言模型，B 参数，将现实世界的信息通过传感器纳入语言模型，让机器人可以连续对物体进行适应性操作。https://palm-e.github.io

Google最新发布PaLM 2，一种新的语言模型，具有更好的多语言和推理能力，同时比其前身PaLM更节省计算资源。

Google最新发布PaLM 2，一种新的语言模型，具有更好的多语言和推理能力，同时比其前身PaLM更节省计算资源。 PaLM 2综合了多项研究进展，包括计算最优的模型和数据规模、更多样化和多语言的数据集、以及更有效的模型架构和目标函数。 PaLM 2在多种任务和能力上达到了最先进的性能，包括语言水平考试、分类和问答、推理、编程、翻译和自然语言生成等。PaLM 2还展示了强大的多语言能力，能够处理数百种语言，并在不同语言之间进行翻译和解释。PaLM 2还考虑了负责任的使用问题，包括推理时控制毒性、减少记忆化、评估潜在的伤害和偏见等。

Google IO 将公布 PaLM 2 大模型

Google IO 将公布 PaLM 2 大模型 Google 将在年度开发者大会 Google I/O 上宣布它的新版通用大语言模型 PaLM 2。 PaLM 是 Google 在 2022 年 4 月宣布的大模型，有 5400 亿参数，Google AI 和 DeepMind 后在此基础上开发了一个用医学数据集微调的版本 Med-PaLM，它是首个在美国医师资格考试中获得及格分的 AI 模型。在 5 月 10 日周三举行的开发者大会上 Google 宣布的 PaLM 2 将是该公司最先进的大模型，其内部代号为“Unified Language Model（统一语言模型）”，包含逾百种语言，能执行范围广泛编程和数学测试，以及创意写作测试和分析。

Google 重磅： PaLM-E 来了，562B、多模态，打破生物和非生物界限的一大步!

Google 重磅： PaLM-E 来了，562B、多模态，打破生物和非生物界限的一大步! 受到New Bing 和ChatGPT强劲冲击的谷歌，今天放出了重磅消息。老规矩，这则爆炸新闻依然照顾非专业人士的阅读体验。如果你还没有了解过多模态，这个核心概念。（强烈推荐优先阅读，这里一篇极简的科普《像大脑一样学习的多模态》先快速对比讨论， PaLM-E 和 ChatGPT 有什么异同： - PaLM-E 是5620亿参数的嵌入式语言模型，而ChatGPT是1750亿参数的通用语言模型。 - PaLM-E 可以处理多模态数据，例如声音、图像、文本等，而ChatGPT主要处理文本数据。 - PaLM-E 能够在边缘设备（手机、摄像头等不依赖云）上高效运行，而ChatGPT需要云端计算资源。多模态为什么很神奇？我对多模态的思想给出一个参考的比喻，即它是机器学习进一步地模拟大脑，希望机器像生物一样拥有多感官来整合对世界的认知。具体来说，PaLM-E 是输入端的数据训练有了维度上的突破，它可以把连续性的、多维度的观察数据（状态、视觉还有各种探测器）注入模型。全称是 Pathways Lauguage Model，其中E 代表Embody（具身认知）。因此， Palm- E 是一个多模态的、 5620 亿参数、通用、具身认知的通才横跨机器人、视觉和语言的LLM。第一案例：家用机器人的厨房场景（在随附视频 25秒，左上位置，你看到了厨房的机器人）你直接想象，你把它买回家！让它自己也通过视觉和语音等方式捕捉来完善整个环境和物件信息，完全个性化、定制化的学习。任务是这样：帮我把抽屉里的薯片拿过来！ - 首先，它自己先走抽屉附近 - 然后，打开了最上面第一个抽屉 - 接着把绿色包装的薯片取了出来。 - 它戴着薯片走向你面前。（ Fin）第二个案例：认知学习，排列组合不同形状和颜色物件（在随附视频 25秒，右上位置，桌面工作站）任务是这样：根据颜色分类，并将其放置桌角。

谷歌在 Google I/O 2023 上全面升级AI技术

谷歌在 Google I/O 2023 上全面升级AI技术 PaLM 2 模型发布，相较前代 PaLM 参数更少但能力远超。支持100多种自然语言和20多种编程语言，为超过25种新产品和功能提供支持。有着 Gecko 壁虎 (可移动端本地运行)、Otter 水獭、Bison 野牛、Unicorn 独角兽四种参数规格。 Bard 现由 PaLM 2 驱动，已取消候补名单在180多个地区上线。升级后的 Bard 支持20多种编程语言，自然语言新增支持日语与韩语，很快将扩大支持40种语言包括中文。Bard 现在结合了 Google Lens 的识图能力与 Adobe Firefly 的图片生成能力，未来将有更多第三方工具接入。还更新了图文并茂回复、来源引用、代码/文本导出、深色模式等功能。 Duet AI 进入谷歌办公套件，包括在 Gmail 起草邮件、 Docs 文档编写、Sheets 表格处理、Slides 幻灯片生成、Meet 会议摘要等等。 Google Brain 和 DeepMind 今年开始合作研发的下一代模型 Gemini 双子座正在训练中，目前已经展现出了以往模型中从未出现过的多模态能力。据 The Information 消息 Gemini 将具有像 GPT-4 一样的万亿参数。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人