GPT-4V 开启了AI 多模态时代

GPT-4V 开启了AI 多模态时代越来越多人拿到 ChatGPT 新的多模态能力，让我们先望梅止渴，看看海外玩家们如何探索出的大批新场景和应用案例；相信你也和我一样能意识到， GPT-4V 正在推动世界进入全新的阶段。无论你是学生、父母、老师、医生、程序员、设计师、创作者、工程师，或是传统农业和制造业，都能在以下场景找到启发。教学场景。 Peteryang 演示了一个教育场景：他使用ChatGPT 的图像识别和分析能力，他的孩子讨论了人体结构，从大脑到心脏的精确说明令人振奋。提示词只有一句：“我现在一年级。给我解释一下。” 这代表着学生将进入前所未有 1:1 的个性化指导时代。（图 1）停车场景。面对眼花撩乱的停车指示牌，Peter 还请 GPT-V智能识别并推理分析了一下具体的可行性，「请一句话告诉我：现在周三下午4点，我能在这停车吗？」结果秒出～（图 2）饮食健康。 Mckay Wrigley 测试了 GPT-4V 作为健康管理工具的能力，智能分析了图片中所有的蔬菜水果「转换」成了基于热量、蛋白、脂肪的结构化数据（Json 格式便于后续编程，图 3）故事脚本分析。Mckay Wrigley 还让 GPT-V 分析了《盗梦空间》的设计图标，发现ChatGPT 对图表的结构和流程、各个部分的位置有着深入的理解，并能够连贯、智能地将其拼凑在一起。（图 4）图片对照。 Andrew Morgan 发现 GPT-V 非常擅长对比图片差异。「找不同」功能看起来微不足道，但是想一想库存管理、取证扫描、甚至制造业等生产场景，他认为视觉智能的应用前景不可估量。（图 5）学术研究。教授 Ethon Mollick 让 GPT-4V 识别了一个手稿，识别率惊人的高。他认为对于许多学术领域来说，这可能会是一件大事，特别是因为 AI 还可以对文本进行「推理」。（图 6）室内设计。Pietro Schirano 请 GPT-4V 给出了改进建议，结合自定义说明将其进行了个性化建议中，从颜色到触感（图 7）。Pietro 感到难以置信！摄影技巧。Pietro 还尝试GPT-4V 对指定的摄影作品给建议，其专业建议的推理能力令人大开眼界。参数设置建议，如图8。

在Telegram中查看

相关推荐

【AI变鉴片大师，多模态大模型挑战超长3小时视频】包括GPT-4V等在内的同类模型基本只能处理图像。贾佳亚团队的LLaMA-VI

【AI变鉴片大师，多模态大模型挑战超长3小时视频】包括GPT-4V等在内的同类模型基本只能处理图像。贾佳亚团队的LLaMA-VID支持单图、短视频和长视频三种输入，只通过一个非常简单的办法就达成了如上能力，那就是：单帧画面压缩到只用2个token编码。 #抽屉IT

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。目前发布了两个版本的模型，旨在实现领

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。目前发布了两个版本的模型，旨在实现领先的性能和高效的部署： MiniCPM-V 2.8B：可在终端设备上部署的先进多模态大模型。最新发布的 MiniCPM-V 2.0 可以接受 180 万像素的任意长宽比图像输入，实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。 OmniLMM-12B：相比同规模其他模型在多个基准测试中具有领先性能，实现了相比 GPT-4V 更低的幻觉率。

9个GPT-4V 用例：

9个GPT-4V 用例： 1、菜单翻译（其实甚至没文字只有菜品图都没问题） 2、随身导游，逛博物馆时会很好用 3、厨房助力，拍冰箱或者菜市场的照片让ChatGPT推荐做什么 4、家装设计师，拍张家里的照片就可以获取装修建议 5、穿搭建议，拍个全身照可以获得穿搭建议 6、看手相 7、X光片解读 8、CT扫描解读 9、安检机的X光线图像也能解读，用来辅助人工理解应该也有机会很快落地

如果你对GPT-4V带来的广泛经济变革想要深入研究兴趣，这篇《LMM的黎明：与GPT-4V(ision)的初步探索》论文有着深入

如果你对GPT-4V带来的广泛经济变革想要深入研究兴趣，这篇《LMM的黎明：与GPT-4V(ision)的初步探索》论文有着深入原理、行业应用层面的讨论（图9）。 Enjoy～当然，这些令人振奋的演示背后，AI 教育专业人士也不断提醒表示「演示是一回事，实际使用是另一回事。」 AI模型还会犯错，值得我们保持批判性思考，不断在日常生活和工作流持续探索。欢迎来到AI 多模态的新时代～

今日重磅： Open AI 正式推出 GPT-4！

今日重磅： Open AI 正式推出 GPT-4！在演示视频中，GPT-4 可以实现： - 问它如何清洁装满食人鱼的鱼缸里面？（回答惊喜连连~） - 自动编写一个python脚本来分析我的月度财务情况（支持主流编程语言） - 分析、理解图片，并「预测」可能性（这里的预测太酷了：杠杆那头的棒球会被击飞）综合来说： GPT-4 是多模态。直接读取图片和文档等应用场景。（多模态意味着机器拥有了更多维度的输入数据处理能力，类似生物有了多感官能力。） GPT-4的高级推理能力超过了ChatGPT。上下文理解巨幅提升。 GPT-4能够处理超过25,000字的文本，允许使用案例，如长形式的内容创建，扩展的对话，以及文件搜索和分析。中文准确度大幅提升。更多请访问Open AI官网： Invalid media:

GPT4 AI人工智能助手与AI对话 - Ask AI

GPT4 AI人工智能助手与AI对话 - Ask AI 图像生成和探索，有趣的语言学习和家庭作业助手，语言练习，学术支持智能汇总助手，快速摘要简单的网络搜索，个性化建议和创意灵感，体验最人性化的互动 v8 Pro功能解锁 GPT-4o模型解锁（13受限于服务器端） Claude3.5模型解锁 Gemini1.5 Flash模型解锁 #AskAI #AI #AI聊天助手 #GPT4 #GPT4o #Claude #Gemini 免费资源频道：@ZYPD123 全网搜索群:@soso_Group

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人