研究发现最好的视觉学习模型在最基本的识别测试中也会失败

研究发现最好的视觉学习模型在最基本的识别测试中也会失败 奥本大学和阿尔伯塔大学的研究人员最近发表了一篇题为"视觉语言模型是盲目的"的论文。该研究使用了八种直接的视敏度测试来突出视觉学习模型(VLM)的缺陷。这些任务包括计算相交线、识别圈出的字母、计算嵌套的形状等。这些测试都有客观明确的答案,除了基本的二维图形外,只需要最低限度的知识。为了避免模型通过记忆来完成这些任务,研究人员使用自定义代码而不是预先存在的图像来生成测试。他们评估了四种 VLM 模型,包括 GPT-4o、Gemini-1.5 Pro、Sonnet-3 和 Sonnet-3.5。结果表明,没有一个模型能达到完美的准确度,而且根据任务的不同,性能也有很大差异。例如,表现最好的模型只能数出空白网格中的行和列,准确率不到 60%。相反,Gemini-1.5 Pro 的性能接近人类水平,能在 93% 的情况下正确识别带圈字母。此外,即使对任务稍作修改,也会导致性能的显著变化。虽然所有模型都能正确识别五个重叠的圆环,但当圆环数量增加到六个或更多时(上图),准确率就会下降到 50%以下。研究人员推测,准确率下降的原因可能是偏向于奥林匹克标志的五环相扣。有些模型甚至提供了无意义的答案,例如"Subdermatoglyphic"(下图)中圈出的字母是"9"、"n"或"©"。这些发现凸显了 VLM 在处理低级抽象视觉任务能力上的巨大局限性。这种行为让人联想到大型语言模型的类似能力差距,这些模型可以生成连贯的文本摘要,但却无法解决基本的数学和拼写问题。研究人员假设,这些差距可能源于模型无法超越其训练数据。然而,使用其中一项任务(两个圆圈相碰测试)中的特定图像对模型进行微调,准确率仅从17%略微提高到37%,这表明模型过度适应了训练集,但却无法泛化。研究人员提出,VLMs 的这些能力差距可能是由于将视觉编码器整合到预先训练的语言模型的"后期融合"方法造成的。他们认为,从一开始就将视觉和语言训练结合起来的"早期融合"方法可以提高低级视觉任务的表现。不过,他们没有提供支持这一建议的分析。您可以在该团队的网站上查看结果和其他示例。 ... PC版: 手机版:

相关推荐

封面图片

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的 AI 模型 微软的研究人员介绍了多模态模型 ,它可以分析图像内容,解决拼图问题,进行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合了文本、音频、图像和视频等不同输入模式的多模态人工智能,是建立人工通用智能(AGI)的关键步骤,可以执行人类水平的一般任务。他们在一些测试中评估了 Kosmos-1 的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称,在许多这些测试中,Kosmos-1 的表现超过了目前最先进的模型。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Meta AI 研发能在智能手机上运行的紧凑大模型

Meta AI 研发能在智能手机上运行的紧凑大模型 Meta A 的研究人员正在开发智能手机上运行的紧凑型大模型 MobileLLM。研究人员致力于优化参数规模低于 10 亿的大模型,相比下 OpenAI GPT-4 的参数规模据称超过 1 万亿。研究人员报告利用一系列新技术,MobileLLM 在基准测试任务上的表现比类似规模的模型改进了 2.7%-4.3%,3.5 亿参数规模的 MobileLLM 在某些任务的准确率与 70 亿参数规模的 LLaMA-2 模型相当。这意味着在特定任务上,紧凑型大模型能提供比更大规模大模型相似的能力,同时计算开销更低。 via Solidot

封面图片

OpenAI 用新模型 CriticGPT 识别 GPT-4 的代码错误

OpenAI 用新模型 CriticGPT 识别 GPT-4 的代码错误 OpenAI 研究人员透露了一种新模型 CriticGPT,设计识别 GPT-4 所生成的代码中的错误。CriticGPT 使用了人类反馈中强化学习(Reinforcement Learning from Human Feedback 或 RLHF) 去增强 AI 系统,它作为 AI 助手帮助人类审查 ChatGPT 生成的代码。它分析 AI 生成的代码然后指出可能的错误,帮助人类更容易识别可能会忽视的 bug。研究人员通过故意在代码中加入 bug 去训练 CriticGPT 识别和标记代码中的各种 bug。 via Solidot

封面图片

Meta 开源计算机视觉基础模型 DINOv2

Meta 开源计算机视觉基础模型 DINOv2 Meta 开源了它的计算机视觉基础模型 DINOv2,源代码托管在上,和 Meta 近期开源的其它 AI 模型一样,采用的是非商用的 CC-BY-NC 4.0 许可证。DINOv2 是基于 Vision Transformer (ViT)架构,使用一个包含 1.42 亿幅图像的精选数据集进行预训练,可用于图像分类、视频动作识别、语义分割和深度估计等任务。Meta 称 DINOv2 模型的速度是旧方法的两倍,使用的内存只有旧方法的三分之一。测试显示它相比其它同类模型有显著改进。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

LLaV:一个拥有类似 GPT-4 的大语言+视觉模型

LLaV:一个拥有类似 GPT-4 的大语言+视觉模型 “使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调优提高了新任务的零样本能力,但这一想法在多模式领域的探索较少。 所以,我们开始尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,并推出了 LLaVA:大型语言和视觉助手。 这是一种端到端训练的大型多模态模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解。 早期实验表明,LLaVA 展示了令人印象深刻的多模型聊天能力,有时在看不见的图像 / 指令上表现出多模态 GPT-4 的行为,并且与合成多模态指令跟随数据集上的 GPT-4 相比,相对分数达到了 85.1%。 当在 Science QA 上进行微调时,LLaVA 和 GPT-4 的协同作用达到了 92.53%,这个准确率颇高。 因此,我们在 GitHub 正式开放 GPT-4 生成的视觉指令调整数据、模型和代码库。” |||||

封面图片

研究人员测试了热门的大语言模型的版权侵权情况

研究人员测试了热门的大语言模型的版权侵权情况 新创 AI 模型评估公司 Patronus AI 周三发布了一个 API,用于检测大语言模型版权内容的 CopyrightCatcher (版权捕手)。同时该公司还展示了热门的 AI 模型生成受版权保护内容的频率。 Patronus 仅使用美国受版权保护的书籍来测试模型,并从编目网站 Goodreads 中选择流行的书籍。 研究人员设计了100种不同的提示语,让模型以续写或输出第一页的方式回应。OpenAI 的 GPT-4 表现最差,在44%的提示上生成了受版权保护的内容, Mixtral 为22%。Anthropic 的 Claude 2 为8%,Meta 的 Llama-2 为10%。总体来说所有模型,无论开源闭源都生成了受版权保护的内容,暗示了其训练数据中可能也使用了这些数据。OpenAI 曾在今年早些时候表示,如果没有受版权保护的作品,“不可能”训练顶级人工智能模型。 、

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人