LLaV：一个拥有类似 GPT-4 的大语言+视觉模型

LLaV：一个拥有类似GPT-4的大语言+视觉模型“使用机器生成的指令跟踪数据对大型语言模型(LLM)进行指令调优提高了新任务的零样本能力，但这一想法在多模式领域的探索较少。所以，我们开始尝试使用纯语言GPT-4生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整，并推出了LLaVA：大型语言和视觉助手。这是一种端到端训练的大型多模态模型，连接视觉编码器和LLM以实现通用视觉和语言理解。早期实验表明，LLaVA展示了令人印象深刻的多模型聊天能力，有时在看不见的图像/指令上表现出多模态GPT-4的行为，并且与合成多模态指令跟随数据集上的GPT-4相比，相对分数达到了85.1%。当在ScienceQA上进行微调时，LLaVA和GPT-4的协同作用达到了92.53%，这个准确率颇高。因此，我们在GitHub正式开放GPT-4生成的视觉指令调整数据、模型和代码库。”

在Telegram中查看

相关推荐

OpenAI 新一代模型 GPT-4 将于下周发布

OpenAI新一代模型GPT-4将于下周发布微软德国CTOAndreasBraun在3月9日举行的「AIinFocus-DigitalKickoff」活动中透露到:GPT-4将于下周发布，它是一个多模态模型，除了生成文本还可以生成图像、视频和音乐。这项技术已经发展到基本上"适用于所有语言"。微软德国CEOMarianneJanik还在活动上强调:"微软不会使用客户的数据来训练模型。"GPT-4的发布活动可能是指微软将在3月16日(北京时间17日0点)举办的「」发布会，届时微软CEOSatyaNadella和Microsoft365负责人JaredSpataro将在直播中展示最新的AI产品。投稿：@ZaiHuabot频道：@TestFlightCN

快手：快意通用大语言模型能力已超 GPT-3.5 营销能力齐平 GPT-4

快手：快意通用大语言模型能力已超GPT-3.5营销能力齐平GPT-4快手商业化算法负责人江鹏今日在2024快手磁力大会上表示，快意通用大语言模型能力超过GPT-3.5，通过对快意大模型进行千亿级Token商业知识预训练、百万级商业指令对齐等，快手进一步研发了业界领先的营销域大语言模型。该模型能生成符合快手风格的素材，在营销领域的能力已与GPT-4齐平。据透露，快手女娲数字人平台能支撑超过2200路数字人24小时同时开播，盘古视频AIGC能够让营销转化率提升33%。

Auto-GPT 是一个实验性开源应用程序，展示了 GPT-4 语言模型的功能。该计划由 GPT-4 驱动，自主开发和管理业务以

是一个实验性开源应用程序，展示了GPT-4语言模型的功能。该计划由GPT-4驱动，自主开发和管理业务以增加净值。作为GPT-4完全自主运行的首批示例之一，Auto-GPT突破了AI的可能性界限。特征：用于搜索和信息收集的Internet访问长期和短期内存管理用于文本生成的GPT-4实例访问热门网站和平台使用GPT-3.5进行文件存储和汇总

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI发布新一代大型多模态模型GPT-4GPT-4是一个大型多模态模型，可以接受文本和图像输入。GPT-4在各种专业学术基准上有着人类水平表现，例如模拟律师考试中，GPT-4的得分约为前10%，而GPT-3.5的得分约为倒数10%。在多语言测试中，GPT-4优于GPT-3.5和Chinchilla(来自DeepMind)还有PaLM(来自谷歌)，包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。OpenAI还开放了角色扮演和性格定制能力，开发人员和用户可以自定义他们的AI风格，而不是具有固定冗长、语气和风格的经典ChatGPT个性。ChatGPTPlus订阅用户现可直接GPT-4，未来将对免费用户开放一定数量的GPT-4体验。GPT-4API需要候选名单，每1kprompttokens的价格为$0.03，每1kcompletiontokens的价格为$0.06。目前图像输入处在研究预览阶段，仅对少部分客户开放。微软在GPT-4发布后也正式BingChat基于GPT-4运行，同时BingChat的Edge边栏功能上线。与数据停留在2021年9月的GPT-4离线版本不同，BingChat可联网获取实时信息并且免费。——投稿：@ZaiHuabot频道：@TestFlightCN

360奇元/智脑两大自研模型全部获批：国内首家号称超越GPT-4

360奇元/智脑两大自研模型全部获批：国内首家号称超越GPT-4官方表示，360智脑大模型集成360GPT大模型、360多模态大模型技术能力，具备生成创作、多轮对话、逻辑推理等十大核心能力，覆盖大模型全部应用场景。值得一提的是，今年8月，上海交通大学联合清华大学及爱丁堡大学共同推出了适用于大语言模型的多层次多学科中文评估套件“C-Eval”。在中文大模型能力排行榜上，360智脑大模型的千亿参数版本“360GPT-S2”平均分超过GPT-4。结果显示，360智脑大模型千亿参数版本“360GPT-S2”平均分得分为69分。不仅超过GPT-4平均分，并在社会科学类题目中得分82分，超过GPT-4近5分，人文科学类题目中得分70.6分，比GPT-4该项得分高6分。...PC版：https://www.cnbeta.com.tw/articles/soft/1394507.htm手机版：https://m.cnbeta.com.tw/view/1394507.htm

微软：多模态大模型GPT-4下周就出

微软：多模态大模型GPT-4下周就出最新消息是，万众期待的GPT-4下周就要推出了：在3月9日举行的一场名为“AIinFocus-DigitalKickoff”的线下活动中，四名微软德国员工展示了GPT系列等大型语言模型（LLM）的颠覆性力量，以及OpenAI技术应用于Azure产品的详细信息。在活动中，微软德国首席技术官AndreasBraun表示GPT-4即将发布，自从3月初多模态模型Kosmos-1发布以来，微软一直在测试和调整来自OpenAI的多模态模型。GPT-4，下周就出“我们将在下周推出GPT-4，它是一个多模态的模型，将提供完全不同的可能性——例如视频（生成能力），”Braun说道，他将语言大模型形容为游戏规则改变者，因为人们在这种方法之上让机器理解自然语言，机器就能以统计方式理解以前只能由人类阅读和理解的内容。与此同时，这项技术已经发展到基本上“适用于所有语言”：你可以用德语提问，然后用意大利语得到答案。借助多模态，微软和OpenAI将使“模型变得全面”。微软德国CTOAndreasBraun。改变业界微软德国公司首席执行官MarianneJanik全面谈到了人工智能对业界的颠覆性影响。Janik强调了人工智能的价值创造潜力，并表示，当前的人工智能发展和ChatGPT是“iPhone发布一样的时刻”。她表示，这不是要代替人类工作，而是帮助人们以不同于以往的方式完成重复性任务。改变并不一定意味着失业。Janik强调说，这意味着“许多专家会开始利用AI实现价值增长”。传统的工作行为正在发生变化，由于新的可能性出现，也会产生全新的职业。她建议公司成立内部“能力中心”，培训员工使用人工智能并将想法整合到项目中。此外，Janik还强调，微软不会使用客户的数据来训练模型（但值得注意是，根据ChatGPT的政策，这不会或至少不会适用于他们的研究合作伙伴OpenAI）。微软德国CEOMarianneJanik。实际用例微软的两位AI技术专家ClemensSieber和HolgerKenn提供了关于AI实际使用的一些信息。他们的团队目前正在处理具体的用例，他们讲解了用例涉及的技术。Kenn解释了什么是多模态人工智能，它不仅可以将文本相应地翻译成图像，还可以翻译成音乐和视频。除了GPT-3.5模型之外，他还谈到了嵌入，用于模型中文本的内部表征。根据Kenn的说法，“负责任”的AI已经内置到微软的产品中，并且可以通过云将数百万个查询映射到API中。ClemensSiebler则用用例说明了今天已经成为可能的事情，例如可以把电话呼叫的语音直接记录成文本。根据Siebler的说法，这可以为微软在荷兰的一家大型客户每天节省500个工作小时。该项目的原型是在两个小时内创建的，一个开发人员在两周内完成了该项目。据他介绍，三个最常见的用例是回答只有员工才能访问的公司信息、AI辅助文档处理和在呼叫中心处理口语的半自动化。微软表示人们很快就会与其全新的AI工具见面。特别是在编程领域，Codex和Copilot等模型可以更轻松地创建代码，令人期待。当被问及操作可靠性和事实保真度时，Siebler表示AI不会总是正确回答，因此有必要进行验证。微软目前正在创建置信度指标来解决此问题。通常，客户仅在自己的数据集上使用AI工具，主要用于阅读理解和查询库存数据，在这些情况下，模型已经相当准确。然而，模型生成的文本仍然是生成性的，因此不容易验证。Siebler表示微软围绕生成型AI建立了一个反馈循环，包括赞成和反对，这是一个迭代的过程。看来在AI大模型的竞争中，领先的一方也加快了脚步。微软在过去一周左右接连发布了展示多模态的语言大模型论文Kosmos-1和VisualChatGPT，这家公司显然非常支持多模态，希望能够做到使感知与LLM保持一致，如此一来就能让单个AI模型看文字图片，也能“说话”。微软的下次AI活动选在了3月16日，CEO萨蒂亚・纳德拉将亲自上台演讲，不知他们是否会在这次活动上发布GPT-4。有趣的是，微软的活动和百度推出文心一言选在了同一天。距离3月16日百度推出类ChatGPT聊天机器人还有一周时间，最近有报道称，百度正在抓紧时间赶在发布最后期限前完成任务。目前看来，百度打算分阶段推出文心一言的各项功能，并首先向部分用户开放公测。知情人士称，在春节假期过后，李彦宏就要求包括自动驾驶部门在内的全公司AI研究团队将英伟达A100支援给文心一言的开发。我们期待下周各家科技公司能带来惊喜。...PC版：https://www.cnbeta.com.tw/articles/soft/1348807.htm手机版：https://m.cnbeta.com.tw/view/1348807.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人