微软开源 Visual ChatGPT

OpenAI的ChatGPT(GPT3版本)是基于大语言模型,专门训练以文本形式的对话与用户互动。它不是基于多模态模型,不支持图像或语音的输入输出。如果我们想要构建一个类似ChatGPT的支持图像理解和生成的系统,那么可能需要使用一个多模态会话模型进行训练。但此类的训练需要消耗大量的数据和算力资源。与此从头开始构建一个全新的系统,不如站在巨人的肩膀上。微软亚洲研究院的研究人员在预印本网站arxiv上发表论文《VisualChatGPT:Talking,DrawingandEditingwithVisualFoundationModels》,提出在ChatGPT 和多个VisualFoundationModels基础上构建VisualChatGPT。源代码托管在GitHub上。投稿:@ZaiHuabot频道:@TestFlightCN

相关推荐

封面图片

Visual ChatGPT 是一个结合了视觉基础模型的系统,使用户能够超越语言格式与 ChatGPT 交互,解决复杂的视觉任务

是一个结合了视觉基础模型的系统,使用户能够超越语言格式与ChatGPT交互,解决复杂的视觉任务。ChatGPT正在吸引跨领域的兴趣,因为它提供了一种语言界面,具有跨多个领域的卓越对话能力和推理能力。然而,由于ChatGPT是用语言训练的,它目前无法处理或生成来自视觉世界的图像。同时,VisualFoundationModels,如VisualTransformers或StableDiffusion,虽然表现出强大的视觉理解和生成能力,但它们只是特定任务的专家,具有一轮固定的输入和输出。为此,我们构建了一个名为\textbf{VisualChatGPT}的系统,其中包含不同的视觉基础模型,使用户能够通过以下方式与ChatGPT进行交互:1)不仅发送和接收语言,还发送和接收图像2)提供复杂的视觉问题或视觉编辑指令,需要多个AI模型进行多步骤协作。3)提供反馈并要求更正结果。

封面图片

微软开源Deep Speed Chat

微软开源DeepSpeedChat微软宣布开源,帮助用户轻松训练类ChatGPT等大语言模型,使得人人都能拥有自己的ChatGPT!DeepSpeedChat是基于微软DeepSpeed深度学习优化库开发而成,具备训练、强化推理等功能,还使用了RLHF(人工反馈机制的强化学习)技术,可将训练速度提升15倍以上,成本却大幅度降低。例如,一个130亿参数的类ChatGPT模型,只需1.25小时就能完成训练。简单来说,用户通过DeepSpeedChat提供的“傻瓜式”操作,能以最短的时间、最高效的成本训练类ChatGPT大语言模型,这标志着一个人手一个ChatGPT的时代要来了。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

ChatGPT 现在可以看到、听到和说话 —— GPT-4 多模态版本上线

ChatGPT现在可以看到、听到和说话——GPT-4多模态版本上线OpenAI开始在ChatGPT中推出新的语音和图像功能,允许您进行语音对话或向ChatGPT展示画面。Plus和企业用户将在未来两周内体验语音和图像,不久后推出给其他用户组,包括开发人员。图像理解由多模态GPT-3.5和GPT-4提供支持,你现在可以向ChatGPT展示一个或多个图像。这些模型可以将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。文本转语音由新的模型提供支持,它能够从几秒钟的真实语音中制作出逼真的合成语音。ChatGPT的预设语音来自直接合作的专业配音演员。语音转文本由OpenAIWhisper模型支持。投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT:一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力,PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合(如上图所示)。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐,PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本,PandaGPT只更新了以下模块:在ImageBind的编码结果上新增一个线性投影矩阵,将ImageBind生成的表示转换后插入到Vicuna的输入序列中;在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是,训练过程中仅对模型输出对应部分进行权重更新,不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是,目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练,但是继承了ImageBind编码器的六种模态理解能力(图像/视频、文本、音频、深度度、热量图和IMU)和它们之间的对齐属性,从而具备在所有模态之间跨模态能力。在实验中,作者展示了PandaGPT对不同模态的理解能力,包括基于图像/视频的问答,基于图像/视频的创意写作,基于视觉和听觉信息的推理等等,下面是一些例子:图像:音频:视频:与其他多模态语言模型相比,PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频:图像+音频:总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力,但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力,例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中,即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷,包括幻觉、毒性和刻板印象。最后,作者们强调,PandaGPT仅仅是一个研究原型,暂时还不足以直接应用于生产环境。...PC版:https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版:https://m.cnbeta.com.tw/view/1363375.htm

封面图片

ExpertLLaMA:一个使用ExpertPrompting构建的开源聊天机器人,其能力达到ChatGPT的96%。

ExpertLLaMA:一个使用ExpertPrompting构建的开源聊天机器人,其能力达到ChatGPT的96%。ExpertLLaMA通过在普通指令中添加专家身份描述,产生高质量、详细的专家级回答。本项目提供了方法简介、52,000个专家数据集样本、52,000个基线数据集样本、52,000个对应每个具体指令的专家身份描述、基于专家数据集训练的ExpertLLaMA检查点以及与Vicuna、LLaMA-GPT4等现有模型的评估结果。

封面图片

谷歌最新人工智能模型 Gemini Pro 已在欧洲上市,将与 ChatGPT 竞争

谷歌最新人工智能模型GeminiPro已在欧洲上市,将与ChatGPT竞争谷歌表示,GeminiPro是谷歌最大的人工智能(AI)模型之一,作为巴德(Bard)的升级版,现已向欧洲用户开放。该模型是一个多模态大模型,这意味着它可以理解和组合不同类型的信息,如文本、代码、音频、图像和视频。通过Gemini,谷歌希望能与OpenAI的热门聊天机器人ChatGPT进行竞争。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人