GPT-4V 开启了AI 多模态时代

GPT-4V 开启了AI 多模态时代 越来越多人拿到 ChatGPT 新的多模态能力,让我们先望梅止渴, 看看海外玩家们如何探索出的大批新场景和应用案例;相信你也和我一样能意识到, GPT-4V 正在推动世界进入全新的阶段。 无论你是学生、父母、老师、医生、程序员、设计师、创作者、工程师,或是传统农业和制造业,都能在以下场景找到启发。 教学场景。 Peteryang 演示了一个教育场景:他使用ChatGPT 的图像识别和分析能力,他的孩子讨论了人体结构,从大脑到心脏的精确说明令人振奋。 提示词只有一句:“我现在一年级。给我解释一下。” 这代表着学生将进入前所未有 1:1 的个性化指导时代。(图 1) 停车场景。面对眼花撩乱的停车指示牌,Peter 还请 GPT-V智能识别并推理分析了一下具体的可行性,「请一句话告诉我:现在周三下午4点, 我能在这停车吗?」结果秒出~ (图 2) 饮食健康。 Mckay Wrigley 测试了 GPT-4V 作为健康管理工具的能力,智能分析了图片中所有的蔬菜水果「转换」成了基于热量、蛋白、 脂肪的结构化数据(Json 格式便于后续编程,图 3) 故事脚本分析。Mckay Wrigley 还让 GPT-V 分析了《盗梦空间》的设计图标,发现ChatGPT 对图表的结构和流程、各个部分的位置有着深入的理解,并能够连贯、智能地将其拼凑在一起。(图 4) 图片对照。 Andrew Morgan 发现 GPT-V 非常擅长对比图片差异。「找不同」功能看起来微不足道,但是想一想库存管理、取证扫描、甚至制造业等生产场景,他认为视觉智能的应用前景不可估量。(图 5) 学术研究。 教授 Ethon Mollick 让 GPT-4V 识别了一个手稿,识别率惊人的高。他认为对于许多学术领域来说,这可能会是一件大事,特别是因为 AI 还可以对文本进行「推理」。(图 6) 室内设计。Pietro Schirano 请 GPT-4V 给出了改进建议,结合自定义说明将其进行了个性化建议中,从颜色到触感(图 7)。Pietro 感到难以置信! 摄影技巧。Pietro 还尝试GPT-4V 对指定的摄影作品给建议,其专业建议的推理能力令人大开眼界。 参数设置建议,如图8。

相关推荐

封面图片

9个GPT-4V 用例:

9个GPT-4V 用例: 1、菜单翻译(其实甚至没文字只有菜品图都没问题) 2、随身导游,逛博物馆时会很好用 3、厨房助力,拍冰箱或者菜市场的照片让ChatGPT推荐做什么 4、家装设计师,拍张家里的照片就可以获取装修建议 5、穿搭建议,拍个全身照可以获得穿搭建议 6、看手相 7、X光片解读 8、CT扫描解读 9、安检机的X光线图像也能解读,用来辅助人工理解应该也有机会很快落地

封面图片

【AI变鉴片大师,多模态大模型挑战超长3小时视频】包括GPT-4V等在内的同类模型基本只能处理图像。贾佳亚团队的LLaMA-VI

【AI变鉴片大师,多模态大模型挑战超长3小时视频】包括GPT-4V等在内的同类模型基本只能处理图像。贾佳亚团队的LLaMA-VID支持单图、短视频和长视频三种输入,只通过一个非常简单的办法就达成了如上能力,那就是:单帧画面压缩到只用2个token编码。 #抽屉IT

封面图片

GPT-4V可以像人类一样与智能手机进行交互,完成各种指定命令。它可以在iPhone上完成类似任务的成功率可达75%。GPT-4

GPT-4V可以像人类一样与智能手机进行交互,完成各种指定命令。它可以在iPhone上完成类似任务的成功率可达75%。GPT-4V的正确率在执行安装、购物等任务中最高得分为52.96%。这项研究证明了多模态模型的潜力,但仍需进一步改进。

封面图片

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。目前发布了两个版本的模型,旨在实现领

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。目前发布了两个版本的模型,旨在实现领先的性能和高效的部署: MiniCPM-V 2.8B:可在终端设备上部署的先进多模态大模型。最新发布的 MiniCPM-V 2.0 可以接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。 OmniLMM-12B:相比同规模其他模型在多个基准测试中具有领先性能,实现了相比 GPT-4V 更低的幻觉率。

封面图片

如果你对GPT-4V带来的广泛经济变革想要深入研究兴趣,这篇《LMM的黎明:与GPT-4V(ision)的初步探索》论文有着深入

如果你对GPT-4V带来的广泛经济变革想要深入研究兴趣,这篇《LMM的黎明:与GPT-4V(ision)的初步探索》论文有着深入原理、行业应用层面的讨论(图9)。 Enjoy~ 当然,这些令人振奋的演示背后 ,AI 教育专业人士也不断提醒表示 「演示是一回事,实际使用是另一回事。」 AI模型还会犯错,值得我们保持批判性思考,不断在日常生活和工作流持续探索。 欢迎来到AI 多模态的新时代~

封面图片

ℹ装上 GPT-4V 的机器人通过镜子测试,能够描述出自己的外貌#

ℹ装上 GPT-4V 的机器人通过镜子测试,能够描述出自己的外貌# Rob 被安装了 ChatGPT ,这使得它能够在树莓派的摄影机模组和 ChatGPT 的描述能力的帮助下识别并且描述出看到的东西。Rob...

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人