Google 重磅: PaLM-E 来了,562B、多模态,打破生物和非生物界限的一大步!
Google 重磅: PaLM-E 来了,562B、多模态,打破生物和非生物界限的一大步! 受到New Bing 和ChatGPT强劲冲击的谷歌, 今天放出了重磅消息。 老规矩, 这则爆炸新闻依然照顾非专业人士的阅读体验。 如果你还没有了解过多模态,这个核心概念。 (强烈推荐优先阅读,这里一篇极简的科普 《像大脑一样学习的多模态》 先快速对比讨论, PaLM-E 和 ChatGPT 有什么异同: - PaLM-E 是5620亿参数的嵌入式语言模型,而ChatGPT是1750亿参数的通用语言模型。 - PaLM-E 可以处理多模态数据,例如声音、图像、文本等,而ChatGPT主要处理文本数据。 - PaLM-E 能够在边缘设备(手机、摄像头等不依赖云)上高效运行,而ChatGPT需要云端计算资源。 多模态为什么很神奇? 我对多模态的思想给出一个参考的比喻,即它是机器学习进一步地模拟大脑,希望机器像生物一样拥有多感官来整合对世界的认知。 具体来说,PaLM-E 是输入端的数据训练有了维度上的突破, 它可以把连续性的、多维度的观察数据(状态、视觉还有各种探测器)注入模型。全称是 Pathways Lauguage Model, 其中E 代表Embody(具身认知)。 因此, Palm- E 是一个多模态的、 5620 亿参数、通用、具身认知的通才横跨机器人、视觉和语言的LLM。 第一案例:家用机器人的厨房场景 (在随附视频 25秒,左上位置,你看到了厨房的机器人) 你直接想象,你把它买回家!让它自己也通过视觉和语音等方式捕捉来完善整个环境和物件信息,完全个性化、定制化的学习。 任务是这样: 帮我把抽屉里的薯片拿过来! - 首先,它自己先走抽屉附近 - 然后,打开了最上面第一个抽屉 - 接着把绿色包装的薯片取了出来。 - 它戴着薯片走向你面前。( Fin) 第二个案例:认知学习,排列组合不同形状和颜色物件 (在随附视频 25秒,右上位置,桌面工作站) 任务是这样:根据颜色分类,并将其放置桌角。
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人