MiniGPT-4，一个拥有类似 GPT-4 图像对话能力的项目

MiniGPT-4，一个拥有类似 GPT-4 图像对话能力的项目能提供类似 GPT-4 的图像理解与对话能力，如详细的图像描述生成、从手写草稿创建网站等。不仅如此，项目团队还在研究中还收获了意想不到的惊喜，除了能实现上述功能之外，MiniGPT-4 还能根据图像创作故事和诗歌，为图像中显示的问题提供解决方案，教用户如何根据食物照片做饭等。#AI #MiniGPT-4 来源 (，) 来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

在Telegram中查看

相关推荐

LLaV：一个拥有类似 GPT-4 的大语言+视觉模型

LLaV：一个拥有类似 GPT-4 的大语言+视觉模型 “使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调优提高了新任务的零样本能力，但这一想法在多模式领域的探索较少。所以，我们开始尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整，并推出了 LLaVA：大型语言和视觉助手。这是一种端到端训练的大型多模态模型，连接视觉编码器和 LLM 以实现通用视觉和语言理解。早期实验表明，LLaVA 展示了令人印象深刻的多模型聊天能力，有时在看不见的图像 / 指令上表现出多模态 GPT-4 的行为，并且与合成多模态指令跟随数据集上的 GPT-4 相比，相对分数达到了 85.1%。当在 Science QA 上进行微调时，LLaVA 和 GPT-4 的协同作用达到了 92.53%，这个准确率颇高。因此，我们在 GitHub 正式开放 GPT-4 生成的视觉指令调整数据、模型和代码库。” |||||

GPT-4相关能力的总结：

GPT-4相关能力的总结： - 支持多模态输入：GPT-4的API可以接受图像，并生成相应的字幕，并对图像进行分析。 - 在BAR考试中取得优异成绩：GPT-4取得了BAR 90分（满分一百），同时在生物奥林匹克竞赛的视觉题方面获得了99分，其推理能力远超ChatGPT。 - 超大上下文：GPT-4支持25,000个单词的上下文，可以使得完整的文档适合于一个提示符内。 - 更具创造性和协作性：与用户协作生成、编辑和迭代写作任务，具有更高的创造性和协作性。 - 多个合作伙伴正在测试GPT-4：Duolingo、Be My Eyes、Stripe、摩根士丹利、可汗学院等，甚至包括冰岛政府。相关链接：

沉迷 GPT-4 Code Interpreter。下图顺序展现了我使用 GPT-4 绘制图表的一个案例。

沉迷 GPT-4 Code Interpreter。下图顺序展现了我使用 GPT-4 绘制图表的一个案例。目标：上传包含美国 SaaS 上市公司财务数据的 Raw Data Excel 文件（未清洗），绘制年营收图表，并按照我的诉求美化、调整图表类型。 1. 自带类似 Agent 的自省能力。 2. 能听懂我的自然语义描述，并调用 Python 的语句来完成我的需求，体验太好。 3. 其他工具通过 Prompt 接入，元数据描述 Prompt 的路线可执行。 4. 一点点看 GPT-4 拆解可以学到东西。做编程教练有潜力。 5. 利好产品（核心能力：洞察需求）和 creator economy 利益相关者。 #ChatGPT

OpenAI新GPT-4 Turbo模型已可使用四项能力提升

OpenAI新GPT-4 Turbo模型已可使用四项能力提升不过更强大的能力同时也意味着更长的响应时间与更高的成本，对于预算有限的项目来说，这也是一个重要的考虑因素。据悉，OpenAI在4月10日正式发布了GPT-4 Turbo，用户可以根据需求构建自己的GPT。GPT-4 Turbo和GPT-4的主要区别在于几个方面：上下文窗口：GPT-4 Turbo拥有更大的上下文窗口，可以处理高达128K个token，而GPT-4的上下文窗口较小。模型大小：GPT-4 Turbo的模型大小为100B参数，这意味着它可以处理更多信息，生成更复杂和细腻的输出，而GPT-4的模型大小为10B参数。知识截止日期：GPT-4 Turbo的训练数据包含到2023年4月的信息，而GPT-4的数据截止于2021年9月，后来扩展到2022年1月。成本：对于开发者来说，GPT-4 Turbo的使用成本更低，因为它的运行成本对OpenAI来说更低。功能集：GPT-4 Turbo提供了一些新功能，如JSON模式、可复现输出、并行函数调用等。总的来说，GPT-4 Turbo的更新更重要的是完善了功能，增加了速度，准确性是否提高仍然存疑。这或许与整个大模型业界目前的潮流一致：重视优化，面向应用。而有可能再次颠覆AI领域的GPT-5，预计将在夏季推出。 ... PC版：手机版：

今日重磅： Open AI 正式推出 GPT-4！

今日重磅： Open AI 正式推出 GPT-4！在演示视频中，GPT-4 可以实现： - 问它如何清洁装满食人鱼的鱼缸里面？（回答惊喜连连~） - 自动编写一个python脚本来分析我的月度财务情况（支持主流编程语言） - 分析、理解图片，并「预测」可能性（这里的预测太酷了：杠杆那头的棒球会被击飞）综合来说： GPT-4 是多模态。直接读取图片和文档等应用场景。（多模态意味着机器拥有了更多维度的输入数据处理能力，类似生物有了多感官能力。） GPT-4的高级推理能力超过了ChatGPT。上下文理解巨幅提升。 GPT-4能够处理超过25,000字的文本，允许使用案例，如长形式的内容创建，扩展的对话，以及文件搜索和分析。中文准确度大幅提升。更多请访问Open AI官网： Invalid media:

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI 发布新一代大型多模态模型 GPT-4 GPT-4 是一个大型多模态模型，可以接受文本和图像输入。GPT-4 在各种专业学术基准上有着人类水平表现，例如模拟律师考试中，GPT-4 的得分约为前10%，而 GPT-3.5 的得分约为倒数10%。在多语言测试中，GPT-4 优于 GPT-3.5 和 Chinchilla (来自DeepMind) 还有 PaLM (来自谷歌) ，包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。 OpenAI 还开放了角色扮演和性格定制能力，开发人员和用户可以自定义他们的AI风格，而不是具有固定冗长、语气和风格的经典 ChatGPT 个性。 ChatGPT Plus 订阅用户现可直接 GPT-4 ，未来将对免费用户开放一定数量的 GPT-4 体验。GPT-4 API 需要候选名单，每1k prompt tokens 的价格为$0.03，每1k completion tokens 的价格为$0.06。目前图像输入处在研究预览阶段，仅对少部分客户开放。微软在 GPT-4 发布后也正式 Bing Chat 基于 GPT-4 运行，同时 Bing Chat 的 Edge 边栏功能上线。与数据停留在2021年9月的 GPT-4 离线版本不同，Bing Chat 可联网获取实时信息并且免费。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人