介绍了一种更高效的方法来收集和标注图像数据,以用于视觉和视觉-语言应用。
介绍了一种更高效的方法来收集和标注图像数据,以用于视觉和视觉-语言应用。通过在电子商务网站上收集图像和描述文本,构建了一个名为Let'sGoShopping(LGS)的大规模公共数据集,包含1500万个图像-描述对。与现有的通用数据集相比,LGS图像更注重前景对象,背景较简单。实验结果表明,现有基准数据集上训练的分类器不容易推广到电子商务数据,而特定的自监督视觉特征提取器可以更好地泛化。此外,LGS具有高质量的电子商务焦点图像和双模态特性,在视觉语言双模态任务中具有优势,可以生成更丰富的图像描述并实现电子商务风格转换。为了使LGS可供公众使用,将以"BSD3-Clause"许可证共享筛选后的图像-描述链接,并提供下载工具以便复现数据集。