研究发现最好的视觉学习模型在最基本的识别测试中也会失败

研究发现最好的视觉学习模型在最基本的识别测试中也会失败 奥本大学和阿尔伯塔大学的研究人员最近发表了一篇题为"视觉语言模型是盲目的"的论文。该研究使用了八种直接的视敏度测试来突出视觉学习模型(VLM)的缺陷。这些任务包括计算相交线、识别圈出的字母、计算嵌套的形状等。这些测试都有客观明确的答案,除了基本的二维图形外,只需要最低限度的知识。为了避免模型通过记忆来完成这些任务,研究人员使用自定义代码而不是预先存在的图像来生成测试。他们评估了四种 VLM 模型,包括 GPT-4o、Gemini-1.5 Pro、Sonnet-3 和 Sonnet-3.5。结果表明,没有一个模型能达到完美的准确度,而且根据任务的不同,性能也有很大差异。例如,表现最好的模型只能数出空白网格中的行和列,准确率不到 60%。相反,Gemini-1.5 Pro 的性能接近人类水平,能在 93% 的情况下正确识别带圈字母。此外,即使对任务稍作修改,也会导致性能的显著变化。虽然所有模型都能正确识别五个重叠的圆环,但当圆环数量增加到六个或更多时(上图),准确率就会下降到 50%以下。研究人员推测,准确率下降的原因可能是偏向于奥林匹克标志的五环相扣。有些模型甚至提供了无意义的答案,例如"Subdermatoglyphic"(下图)中圈出的字母是"9"、"n"或"©"。这些发现凸显了 VLM 在处理低级抽象视觉任务能力上的巨大局限性。这种行为让人联想到大型语言模型的类似能力差距,这些模型可以生成连贯的文本摘要,但却无法解决基本的数学和拼写问题。研究人员假设,这些差距可能源于模型无法超越其训练数据。然而,使用其中一项任务(两个圆圈相碰测试)中的特定图像对模型进行微调,准确率仅从17%略微提高到37%,这表明模型过度适应了训练集,但却无法泛化。研究人员提出,VLMs 的这些能力差距可能是由于将视觉编码器整合到预先训练的语言模型的"后期融合"方法造成的。他们认为,从一开始就将视觉和语言训练结合起来的"早期融合"方法可以提高低级视觉任务的表现。不过,他们没有提供支持这一建议的分析。您可以在该团队的网站上查看结果和其他示例。 ... PC版: 手机版:

相关推荐

封面图片

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的 AI 模型 微软的研究人员介绍了多模态模型 ,它可以分析图像内容,解决拼图问题,进行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合了文本、音频、图像和视频等不同输入模式的多模态人工智能,是建立人工通用智能(AGI)的关键步骤,可以执行人类水平的一般任务。他们在一些测试中评估了 Kosmos-1 的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称,在许多这些测试中,Kosmos-1 的表现超过了目前最先进的模型。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

研究人员测试了热门的大语言模型的版权侵权情况

研究人员测试了热门的大语言模型的版权侵权情况 新创 AI 模型评估公司 Patronus AI 周三发布了一个 API,用于检测大语言模型版权内容的 CopyrightCatcher (版权捕手)。同时该公司还展示了热门的 AI 模型生成受版权保护内容的频率。 Patronus 仅使用美国受版权保护的书籍来测试模型,并从编目网站 Goodreads 中选择流行的书籍。 研究人员设计了100种不同的提示语,让模型以续写或输出第一页的方式回应。OpenAI 的 GPT-4 表现最差,在44%的提示上生成了受版权保护的内容, Mixtral 为22%。Anthropic 的 Claude 2 为8%,Meta 的 Llama-2 为10%。总体来说所有模型,无论开源闭源都生成了受版权保护的内容,暗示了其训练数据中可能也使用了这些数据。OpenAI 曾在今年早些时候表示,如果没有受版权保护的作品,“不可能”训练顶级人工智能模型。 、

封面图片

Python自动语音识别框架 || #框架

Python自动语音识别框架 || #框架 “SpeeQ”,发音为“speekiu”,是一个基于 Python 的语音识别框架,允许开发人员和研究人员试验和训练各种语音识别模型。它提供了预实现的模型架构,只需几行代码即可进行训练,使其成为语音识别模型快速原型设计和测试的合适选择。

封面图片

Meta AI 研发能在智能手机上运行的紧凑大模型

Meta AI 研发能在智能手机上运行的紧凑大模型 Meta A 的研究人员正在开发智能手机上运行的紧凑型大模型 MobileLLM。研究人员致力于优化参数规模低于 10 亿的大模型,相比下 OpenAI GPT-4 的参数规模据称超过 1 万亿。研究人员报告利用一系列新技术,MobileLLM 在基准测试任务上的表现比类似规模的模型改进了 2.7%-4.3%,3.5 亿参数规模的 MobileLLM 在某些任务的准确率与 70 亿参数规模的 LLaMA-2 模型相当。这意味着在特定任务上,紧凑型大模型能提供比更大规模大模型相似的能力,同时计算开销更低。 via Solidot

封面图片

OpenAI 用新模型 CriticGPT 识别 GPT-4 的代码错误

OpenAI 用新模型 CriticGPT 识别 GPT-4 的代码错误 OpenAI 研究人员透露了一种新模型 CriticGPT,设计识别 GPT-4 所生成的代码中的错误。CriticGPT 使用了人类反馈中强化学习(Reinforcement Learning from Human Feedback 或 RLHF) 去增强 AI 系统,它作为 AI 助手帮助人类审查 ChatGPT 生成的代码。它分析 AI 生成的代码然后指出可能的错误,帮助人类更容易识别可能会忽视的 bug。研究人员通过故意在代码中加入 bug 去训练 CriticGPT 识别和标记代码中的各种 bug。 via Solidot

封面图片

谷歌发布史上最大的视觉语言模型 PaLM-E

谷歌发布史上最大的视觉语言模型 PaLM-E 谷歌 PaLM-E 有着5620亿参数 (ChatGPT 为1750亿参数) ,结合了 PaLM-540B 语言模型与 ViT-22B 视觉模型。将现实世界的连续传感器模态直接纳入语言模型,"为AI移植眼睛"从而建立单词和感知之间的联系。 PaLM-E 直接从机器人摄像头获取原始图像数据,并根据自然语言指令进行动作规划和执行,这样就避免了人工预处理或标注数据的需要,可以端到端自主学习这些任务。 研究团队同时发现: 1. 语言模型越大,在视觉语言和机器人任务训练时就越能保持其语言能力,PaLM-E 的5620亿的参数量刚好让它保留住了几乎所有语言能力。 2. "通才AI"的正迁移能力,同时在多个任务领域训练的 PaLM-E,单任务能力相比"专精AI"显着提高。 3. 除了人机交互方面有着重大进展,团队还发现了 PaLM-E 有着诸如多模态思维链推理和多图像推理等新兴能力,在 OK-VQA 视觉问答基准测试上达成了新的 SOTA (最佳水平AI)。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人