微软开源 Visual ChatGPT
OpenAI的ChatGPT(GPT3版本)是基于大语言模型,专门训练以文本形式的对话与用户互动。它不是基于多模态模型,不支持图像或语音的输入输出。如果我们想要构建一个类似ChatGPT的支持图像理解和生成的系统,那么可能需要使用一个多模态会话模型进行训练。但此类的训练需要消耗大量的数据和算力资源。与此从头开始构建一个全新的系统,不如站在巨人的肩膀上。微软亚洲研究院的研究人员在预印本网站arxiv上发表论文《VisualChatGPT:Talking,DrawingandEditingwithVisualFoundationModels》,提出在ChatGPT 和多个VisualFoundationModels基础上构建VisualChatGPT。源代码托管在GitHub上。投稿:@ZaiHuabot频道:@TestFlightCN