微软提出的TaskMatrix.AI,想通过大模型和数百万个API来完成任务还是有意思的。

微软提出的TaskMatrix.AI,想通过大模型和数百万个API来完成任务还是有意思的。 : Completing Tasks by Connecting Foundation Models with Millions of APIs 链接: 论文中提出的这个TaskMatrix.AI主要是想理解多模态的输入,然后生成代码,代码里面调用API来完成任务。 它有统一格式的API平台和任务库,方便开发人员定制模型,也方便大模型调用。 TaskMatrix.AI拥有终身学习能力,可以通过学习组合模型和API来完成新任务,而且这是可以解释的。 关键组件有四个: - 多模态对话模型 - API 平台 - API Selector - API Executor 论文中还使用RLHF来提高多模态模型和API Selector的能力。 能够完成的任务: - 视觉任务,比如 图像编辑,图像问答等 - 多模态长内容生成,比如 生成图文 - 自动化 比如:操控手机,浏览器 - 访问云服务 比如: 发现新API - 控制物联网设备 比如:机器人,家用智能设备 我的想法,大模型或者多模态模型出现确实提高了以前对话系统的能力,以前智能音箱大战畅想的很多东西都可以拿出来继续做。

相关推荐

封面图片

:litellm的国内版。允许用户通过统一的 api 访问多平台的生成式模型。

:litellm的国内版。允许用户通过统一的 api 访问多平台的生成式模型。 多模态,支持文本生成,多模态文本生成,结构体生成,图像生成,语音生成... 跨平台,支持 OpenAI,Azure,Minimax,智谱,月之暗面,文心一言 在内的国内外 10+ 平台 One API,统一了不同平台的消息格式,推理参数,接口封装,返回解析,让用户无需关心不同平台的差异 异步,流式和并发,提供流式调用,非流式调用,同步调用,异步调用,异步批量并发调用,适配不同的应用场景 自带电池,提供 chainlit UI,输入检查,参数检查,计费,速率控制,Agent, Tool call 等 轻量,最小化依赖,不同平台的请求和鉴权逻辑均为原生内置功能 高质量代码,100% typehints,pylance strict, ruff lint & format, test coverage > 85% ..

封面图片

API 工具 chatX,率先支持自定义模型,可以通过自定义模型调用API 中转网站支持的 claude3API,避开自己注册秒

API 工具 chatX,率先支持自定义模型,可以通过自定义模型调用API 中转网站支持的 claude3API,避开自己注册秒封的风险了 via 补充:该软件Pro内购目前限免 标签: #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

微软宣布推出了新版小型语言模型 Phi-3,这款模型能够查看图片并告诉你图片中有什么。

微软宣布推出了新版小型语言模型 Phi-3,这款模型能够查看图片并告诉你图片中有什么。 Phi-3-vision 是一种多模态模型,也就是说它能同时处理文本和图像,而且最适合在移动设备上使用。微软表示,现已提供预览的 Phi-3-vision 是一个拥有 42 亿参数的模型(参数指的是模型的复杂程度以及它对训练内容的理解程度),能够执行一般的视觉推理任务,比如对图表或图片提出问题。 但是,Phi-3-vision 的规模远小于其他以图像为中心的人工智能模型,比如 OpenAI 的 DALL-E 或 Stability AI 的 Stable Diffusion。与这些模型不同,Phi-3-vision 并不生成图像,但它能理解图像中的内容,并为用户分析这些内容。 标签: #微软 #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的 AI 模型 微软的研究人员介绍了多模态模型 ,它可以分析图像内容,解决拼图问题,进行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合了文本、音频、图像和视频等不同输入模式的多模态人工智能,是建立人工通用智能(AGI)的关键步骤,可以执行人类水平的一般任务。他们在一些测试中评估了 Kosmos-1 的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称,在许多这些测试中,Kosmos-1 的表现超过了目前最先进的模型。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

零一万物发布Yi大模型API开放平台 首批开放3款大模型

零一万物发布Yi大模型API开放平台 首批开放3款大模型 在全球多项权威评测榜单中,Yi 大模型表现优异,性能直追 GPT-4。此前,Yi 大模型 API已经小范围开放内测,全球已有不少开发者申请使用,并普遍反馈效果超出预期。基于此,此次Yi 大模型 API 正式推出3款模型,给开发者更多惊喜。目前,Yi 大模型API名额限量开放中,新用户赠送60元。Yi 大模型 API 与 OpenAI API 完全兼容,开发者只需修改少量代码,可以平滑迁移。此次 Yi 大模型 API 开放平台提供以下模型:• Yi-34B-Chat-0205:支持通用聊天、问答、对话、写作、翻译等功能。• Yi-34B-Chat-200K:200K 上下文,多文档阅读理解、超长知识库构建小能手。• Yi-VL-Plus: 多模态模型,支持文本、视觉多模态输入,中文图表体验超过 GPT-4V。零一万物API开放平台链接: 30 万个中英文字符,适合用于多篇文档内容理解、海量数据分析挖掘和跨领域知识融合等,在“大海捞针”测试中,Yi-34B-Chat-200K的性能提高了10.5%,从89.3%提升到99.8%。例如,金融分析师可以用Yi-34B-Chat-200K模型快速阅读报告并预测市场趋势、律师可以用它精准解读法律条文、科研人员可以用它高效提取论文要点、文学爱好者可以用它快速掌握作品精髓等,应用场景非常广泛。Yi-34B-Chat-200K 对经典文学作品《呼啸山庄》进行复杂角色和角色关系的归纳总结零一万物开发的多模态模型 Yi-VL-Plus,可支持文本、视觉多模态输入,面向实际应用场景大幅增强,包括:增强Charts, Table, Inforgraphics, Screenshot 识别能力,支持复杂图表理解、信息提取、问答以及推理。中文图表体验超过GPT4V;Yi-VL-Plus模型在一些中文图表理解场景,比GPT-4V准确率更高在 Yi-VL 基础上进一步提高了图片分辨率,模型支持 1024*1024 分辨率输入,显著提高生产力场景中的文字、数字 OCR 的准确性;保持了 LLM 通用语言、知识、推理、指令跟随等能力。同时,零一万物还表示,近期零一万物将为开发者提供更多更强模型和 AI 开发框架,提供更加丰富和灵活的开发工具,以适应多样化的应用场景。相关文章: 估值10亿美元零一万物宣布发布Yi-34B大模型 李开复:不负众望李开复旗下AI公司“零一万物”开源Yi大模型被指抄袭LLaMA零一万物回应大模型架构争议:对模型和训练的理解做了大量工作 ... PC版: 手机版:

封面图片

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些任务涉及 33 种工具,包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人