微软提出的TaskMatrix.AI,想通过大模型和数百万个API来完成任务还是有意思的。
微软提出的TaskMatrix.AI,想通过大模型和数百万个API来完成任务还是有意思的。
: Completing Tasks by Connecting
Foundation Models with Millions of APIs
链接:
论文中提出的这个TaskMatrix.AI主要是想理解多模态的输入,然后生成代码,代码里面调用API来完成任务。 它有统一格式的API平台和任务库,方便开发人员定制模型,也方便大模型调用。
TaskMatrix.AI拥有终身学习能力,可以通过学习组合模型和API来完成新任务,而且这是可以解释的。
关键组件有四个:
- 多模态对话模型
- API 平台
- API Selector
- API Executor
论文中还使用RLHF来提高多模态模型和API Selector的能力。
能够完成的任务:
- 视觉任务,比如 图像编辑,图像问答等
- 多模态长内容生成,比如 生成图文
- 自动化 比如:操控手机,浏览器
- 访问云服务 比如: 发现新API
- 控制物联网设备 比如:机器人,家用智能设备
我的想法,大模型或者多模态模型出现确实提高了以前对话系统的能力,以前智能音箱大战畅想的很多东西都可以拿出来继续做。