是一个结合了视觉基础模型的系统,使用户能够超越语言格式与 ChatGPT 交互,解决复杂的视觉任务。
是一个结合了视觉基础模型的系统,使用户能够超越语言格式与 ChatGPT 交互,解决复杂的视觉任务。 ChatGPT 正在吸引跨领域的兴趣,因为它提供了一种语言界面,具有跨多个领域的卓越对话能力和推理能力。 然而,由于 ChatGPT 是用语言训练的,它目前无法处理或生成来自视觉世界的图像。同时,Visual Foundation Models,如 Visual Transformers 或 Stable Diffusion,虽然表现出强大的视觉理解和生成能力,但它们只是特定任务的专家,具有一轮固定的输入和输出。 为此,我们构建了一个名为 \textbf{Visual ChatGPT} 的系统,其中包含不同的视觉基础模型,使用户能够通过以下方式与 ChatGPT 进行交互: 1)不仅发送和接收语言,还发送和接收图像 2)提供复杂的视觉问题或视觉编辑指令,需要多个 AI 模型进行多步骤协作。 3) 提供反馈并要求更正结果。
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人