Visual ChatGPT 是一个结合了视觉基础模型的系统,使用户能够超越语言格式与 ChatGPT 交互,解决复杂的视觉任务
是一个结合了视觉基础模型的系统,使用户能够超越语言格式与ChatGPT交互,解决复杂的视觉任务。ChatGPT正在吸引跨领域的兴趣,因为它提供了一种语言界面,具有跨多个领域的卓越对话能力和推理能力。然而,由于ChatGPT是用语言训练的,它目前无法处理或生成来自视觉世界的图像。同时,VisualFoundationModels,如VisualTransformers或StableDiffusion,虽然表现出强大的视觉理解和生成能力,但它们只是特定任务的专家,具有一轮固定的输入和输出。为此,我们构建了一个名为\textbf{VisualChatGPT}的系统,其中包含不同的视觉基础模型,使用户能够通过以下方式与ChatGPT进行交互:1)不仅发送和接收语言,还发送和接收图像2)提供复杂的视觉问题或视觉编辑指令,需要多个AI模型进行多步骤协作。3)提供反馈并要求更正结果。