[论文解读] Learning to generalize to new compositions in image understanding
本文提出一种基于主-谓-宾(SRO)三元组的结构化表示方法,以提升图像字幕生成任务中的泛化能力,特别是在面对已知实体的新组合时。在 MS-COCO 的组合性划分数据集上,将标准的 LSTM 字幕模型(Show, Attend and Tell)与结构化预测模型进行比较,发现结构化模型在新组合上的准确率高出约 7 倍,证明其在组合泛化方面具有显著优势。
Recurrent neural networks have recently been used for learning to describe images using natural language. However, it has been observed that these models generalize poorly to scenes that were not observed during training, possibly depending too strongly on the statistics of the text in the training data. Here we propose to describe images using short structured representations, aiming to capture the crux of a description. These structured representations allow us to tease-out and evaluate separately two types of generalization: standard generalization to new images with similar scenes, and generalization to new combinations of known entities. We compare two learning approaches on the MS-COCO dataset: a state-of-the-art recurrent network based on an LSTM (Show, Attend and Tell), and a simple structured prediction model on top of a deep network. We find that the structured model generalizes to new compositions substantially better than the LSTM, ~7 times the accuracy of predicting structured representations. By providing a concrete method to quantify generalization for unseen combinations, we argue that structured representations and compositional splits are a useful benchmark for image captioning, and advocate compositional models that capture linguistic and visual structure.
研究动机与目标
- 解决当前最先进图像字幕模型在已知视觉实体与关系的新组合上泛化能力差的问题。
- 提出一种基于组合性数据划分的基准,用于评估视觉-语言任务中的组合泛化能力。
- 证明基于 SRO 三元组的结构化预测模型在未见组合上的泛化能力显著优于循环神经网络模型。
- 量化并分离图像字幕任务中组合泛化与标准类内泛化之间的差异。
提出的方法
- 作者将图像字幕映射为 SRO 三元组(主-谓-宾),以创建图像描述的紧凑且可解释的结构化表示。
- 提出一种组合性数据划分方法,其中训练集与测试集之间不共享任何共同的 SRO 三元组,从而确保测试样本涉及已知实体的新组合。
- 使用结构化支持向量机(SSVM)训练结构化预测模型,联合预测 SRO 三元组,其得分函数分解为节点势能和成对势能:$ f(s,r,o) = w_S f_S(s) + w_O f_O(o) + w_R f_R(r) + w_{SR} f_{SR}(s,r) + w_{RO} f_{RO}(r,o) $。
- 模型使用包括目标检测得分、空间关系(位置、距离、角度、重叠度)以及从训练数据中学习到的关系、主-谓和谓-宾对的二元组概率在内的特征。
- 对特征进行归一化,并使用合页损失端到端训练模型,以最小化 SRO 三元组的预测误差。
- 通过点互信息(PMI)建立视觉检测标签与字幕术语之间的映射关系,并通过人工筛选确保语义一致性。
实验结果
研究问题
- RQ1当前最先进图像字幕模型在已知视觉实体与关系的新组合上泛化能力如何?
- RQ2像 SRO 三元组这样的结构化表示能否实现对图像字幕中组合泛化能力的更好评估与度量?
- RQ3结构化预测模型是否在未见组合的泛化能力上优于循环注意力模型?
- RQ4组合性划分在多大程度上揭示了标准 MS-COCO 划分中未显现的泛化差距?
主要发现
- 结构化预测模型在组合性测试集上的准确率约为 14%,而基于 LSTM 的 Show, Attend and Tell 模型仅达到约 2% 的准确率,表明在组合泛化方面存在约 7 倍的性能差距。
- LSTM 模型在标准 MS-COCO 测试集上的表现与结构化模型相当,但在组合性测试集上表现急剧下降,凸显其在新组合泛化上的根本性缺陷。
- 组合性划分能有效隔离并度量对未见实体组合的泛化能力,揭示了当前端到端字幕模型的局限性。
- 结构化模型表现显著更优,因其通过学习到的特征权重和成对势能显式建模了组合结构。
- SRO 三元组的使用使得在三元组级别上可直接、准确地评估模型预测,提供了更具可解释性和可量化的基准。
- 结果表明,在视觉-语言任务中,显式建模语言与视觉结构对于实现稳健泛化至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。