GPT-4V 开启了AI 多模态时代

GPT-4V 开启了AI 多模态时代 越来越多人拿到 ChatGPT 新的多模态能力,让我们先望梅止渴, 看看海外玩家们如何探索出的大批新场景和应用案例;相信你也和我一样能意识到, GPT-4V 正在推动世界进入全新的阶段。 无论你是学生、父母、老师、医生、程序员、设计师、创作者、工程师,或是传统农业和制造业,都能在以下场景找到启发。 教学场景。 Peteryang 演示了一个教育场景:他使用ChatGPT 的图像识别和分析能力,他的孩子讨论了人体结构,从大脑到心脏的精确说明令人振奋。 提示词只有一句:“我现在一年级。给我解释一下。” 这代表着学生将进入前所未有 1:1 的个性化指导时代。(图 1) 停车场景。面对眼花撩乱的停车指示牌,Peter 还请 GPT-V智能识别并推理分析了一下具体的可行性,「请一句话告诉我:现在周三下午4点, 我能在这停车吗?」结果秒出~ (图 2) 饮食健康。 Mckay Wrigley 测试了 GPT-4V 作为健康管理工具的能力,智能分析了图片中所有的蔬菜水果「转换」成了基于热量、蛋白、 脂肪的结构化数据(Json 格式便于后续编程,图 3) 故事脚本分析。Mckay Wrigley 还让 GPT-V 分析了《盗梦空间》的设计图标,发现ChatGPT 对图表的结构和流程、各个部分的位置有着深入的理解,并能够连贯、智能地将其拼凑在一起。(图 4) 图片对照。 Andrew Morgan 发现 GPT-V 非常擅长对比图片差异。「找不同」功能看起来微不足道,但是想一想库存管理、取证扫描、甚至制造业等生产场景,他认为视觉智能的应用前景不可估量。(图 5) 学术研究。 教授 Ethon Mollick 让 GPT-4V 识别了一个手稿,识别率惊人的高。他认为对于许多学术领域来说,这可能会是一件大事,特别是因为 AI 还可以对文本进行「推理」。(图 6) 室内设计。Pietro Schirano 请 GPT-4V 给出了改进建议,结合自定义说明将其进行了个性化建议中,从颜色到触感(图 7)。Pietro 感到难以置信! 摄影技巧。Pietro 还尝试GPT-4V 对指定的摄影作品给建议,其专业建议的推理能力令人大开眼界。 参数设置建议,如图8。

相关推荐

封面图片

【AI变鉴片大师,多模态大模型挑战超长3小时视频】包括GPT-4V等在内的同类模型基本只能处理图像。贾佳亚团队的LLaMA-VI

【AI变鉴片大师,多模态大模型挑战超长3小时视频】包括GPT-4V等在内的同类模型基本只能处理图像。贾佳亚团队的LLaMA-VID支持单图、短视频和长视频三种输入,只通过一个非常简单的办法就达成了如上能力,那就是:单帧画面压缩到只用2个token编码。 #抽屉IT

封面图片

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。目前发布了两个版本的模型,旨在实现领

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。目前发布了两个版本的模型,旨在实现领先的性能和高效的部署: MiniCPM-V 2.8B:可在终端设备上部署的先进多模态大模型。最新发布的 MiniCPM-V 2.0 可以接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。 OmniLMM-12B:相比同规模其他模型在多个基准测试中具有领先性能,实现了相比 GPT-4V 更低的幻觉率。

封面图片

9个GPT-4V 用例:

9个GPT-4V 用例: 1、菜单翻译(其实甚至没文字只有菜品图都没问题) 2、随身导游,逛博物馆时会很好用 3、厨房助力,拍冰箱或者菜市场的照片让ChatGPT推荐做什么 4、家装设计师,拍张家里的照片就可以获取装修建议 5、穿搭建议,拍个全身照可以获得穿搭建议 6、看手相 7、X光片解读 8、CT扫描解读 9、安检机的X光线图像也能解读,用来辅助人工理解应该也有机会很快落地

封面图片

如果你对GPT-4V带来的广泛经济变革想要深入研究兴趣,这篇《LMM的黎明:与GPT-4V(ision)的初步探索》论文有着深入

如果你对GPT-4V带来的广泛经济变革想要深入研究兴趣,这篇《LMM的黎明:与GPT-4V(ision)的初步探索》论文有着深入原理、行业应用层面的讨论(图9)。 Enjoy~ 当然,这些令人振奋的演示背后 ,AI 教育专业人士也不断提醒表示 「演示是一回事,实际使用是另一回事。」 AI模型还会犯错,值得我们保持批判性思考,不断在日常生活和工作流持续探索。 欢迎来到AI 多模态的新时代~

封面图片

今日重磅: Open AI 正式推出 GPT-4!

今日重磅: Open AI 正式推出 GPT-4! 在演示视频中,GPT-4 可以实现: - 问它如何清洁装满食人鱼的鱼缸里面?( 回答惊喜连连~) - 自动编写一个python脚本来分析我的月度财务情况(支持主流编程语言) - 分析、理解图片,并「预测」可能性(这里的预测太酷了: 杠杆那头的棒球会被击飞) 综合来说: GPT-4 是多模态。直接读取图片和文档等应用场景。 (多模态意味着机器拥有了更多维度的输入数据处理能力,类似生物有了多感官能力。) GPT-4的高级推理能力超过了ChatGPT。 上下文理解巨幅提升。 GPT-4能够处理超过25,000字的文本,允许使用案例,如长形式的内容创建,扩展的对话,以及文件搜索和分析。 中文准确度大幅提升。 更多请访问Open AI官网: Invalid media:

封面图片

GPT4 AI人工智能助手 与AI对话 - Ask AI

GPT4 AI人工智能助手 与AI对话 - Ask AI 图像生成和探索,有趣的语言学习和家庭作业助手,语言练习,学术支持智能汇总助手,快速摘要简单的网络搜索,个性化建议和创意灵感,体验最人性化的互动 v8 Pro功能解锁 GPT-4o模型解锁(13受限于服务器端) Claude3.5模型解锁 Gemini1.5 Flash模型解锁 #AskAI #AI #AI聊天助手 #GPT4 #GPT4o #Claude #Gemini 免费资源频道:@ZYPD123 全网搜索群:@soso_Group

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人