：一个用于评估大型多模态模型的平台

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些任务涉及 33 种工具，包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

一个关于多模态大语言模型资料收集的项目，包括数据集、多模态指令调整、多模态上下文学习、多模态思维链、LLM辅助视觉推理、基础模型

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI 发布新一代大型多模态模型 GPT-4 GPT-4 是一个大型多模态模型，可以接受文本和图像输入。GPT-4 在各种专业学术基准上有着人类水平表现，例如模拟律师考试中，GPT-4 的得分约为前10%，而 GPT-3.5 的得分约为倒数10%。在多语言测试中，GPT-4 优于 GPT-3.5 和 Chinchilla (来自DeepMind) 还有 PaLM (来自谷歌) ，包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。 OpenAI 还开放了角色扮演和性格定制能力，开发人员和用户可以自定义他们的AI风格，而不是具有固定冗长、语气和风格的经典 ChatGPT 个性。 ChatGPT Plus 订阅用户现可直接 GPT-4 ，未来将对免费用户开放一定数量的 GPT-4 体验。GPT-4 API 需要候选名单，每1k prompt tokens 的价格为$0.03，每1k completion tokens 的价格为$0.06。目前图像输入处在研究预览阶段，仅对少部分客户开放。微软在 GPT-4 发布后也正式 Bing Chat 基于 GPT-4 运行，同时 Bing Chat 的 Edge 边栏功能上线。与数据停留在2021年9月的 GPT-4 离线版本不同，Bing Chat 可联网获取实时信息并且免费。

用于评估和理解大型语言模型的统一评估框架，提供了用户友好的API，方便研究人员进行模型性能评估、提示工程和对抗提示攻击评估等。

大型多模态Agents相关资源列表 |

谷歌发布最新多模态模型 Gemini

谷歌发布最新多模态模型 Gemini Gemini能够归纳并流畅地理解、操作处理包括文本、代码、音频、图像和视频在内的信息。据说宣传视频有造假嫌疑，在图像识别方面，最好的个人感觉还是GPT4，好在 Gemini 可以在Bard中使用，目前Bard也还没有收费。Gemini目前是白嫖党最好的选择了。

相关推荐

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些

一个关于多模态大语言模型资料收集的项目，包括数据集、多模态指令调整、多模态上下文学习、多模态思维链、LLM辅助视觉推理、基础模型

OpenAI 发布新一代大型多模态模型 GPT-4

用于评估和理解大型语言模型的统一评估框架，提供了用户友好的API，方便研究人员进行模型性能评估、提示工程和对抗提示攻击评估等。

大型多模态Agents相关资源列表 |

谷歌发布最新多模态模型 Gemini