QUICK REVIEW

[论文解读] Identity-Aware Textual-Visual Matching with Latent Co-attention

Shuang Li, Tong Xiao|arXiv (Cornell University)|Aug 7, 2017

Multimodal Machine Learning Applications参考文献 33被引用 36

一句话总结

本文提出了一种两阶段的、具备身份感知能力的文本-视觉匹配框架，利用身份级别的标注来提升特征的判别能力。第一阶段采用CNN-LSTM结构，结合一种新颖的跨模态交叉熵（CMCE）损失，对图像和文本进行嵌入，同时最小化同一身份内的特征距离；第二阶段通过潜在协同注意力机制，对齐词语与图像区域，缓解句子结构差异的影响，从而在CUB和Flowers数据集上实现了最先进性能，文本到图像检索的AP@50达到57.6%。

ABSTRACT

Textual-visual matching aims at measuring similarities between sentence descriptions and images. Most existing methods tackle this problem without effectively utilizing identity-level annotations. In this paper, we propose an identity-aware two-stage framework for the textual-visual matching problem. Our stage-1 CNN-LSTM network learns to embed cross-modal features with a novel Cross-Modal Cross-Entropy (CMCE) loss. The stage-1 network is able to efficiently screen easy incorrect matchings and also provide initial training point for the stage-2 training. The stage-2 CNN-LSTM network refines the matching results with a latent co-attention mechanism. The spatial attention relates each word with corresponding image regions while the latent semantic attention aligns different sentence structures to make the matching results more robust to sentence structure variations. Extensive experiments on three datasets with identity-level annotations show that our framework outperforms state-of-the-art approaches by large margins.

研究动机与目标

为解决现有文本-视觉匹配方法在基准数据集中忽略身份级别标注的局限性。
通过最小化同一身份内的特征距离并最大化不同身份之间的距离，提升跨模态嵌入中的特征判别能力。
在不依赖显式语言学解析的前提下，降低句子结构差异对文本表征的影响。
设计一种两阶段深度学习框架，实现对错误匹配的高效筛选以及通过协同注意力机制的精细化匹配。
通过身份感知训练，实现图像到文本和文本到图像检索任务中的最先进性能。

提出的方法

提出一种两阶段CNN-LSTM架构：第一阶段利用新颖的跨模态交叉熵（CMCE）损失与动态特征缓冲区，学习具备身份感知能力的跨模态嵌入。
CMCE损失在整体数据集上隐式地最小化同一身份内的特征距离，并最大化不同身份之间的距离，避免了三元组损失或成对损失中困难负样本采样概率下降的问题。
第一阶段提供初始匹配结果，并作为第二阶段的训练初始化点，高效过滤出简单的错误配对。
第二阶段采用紧密耦合的CNN-LSTM结构，结合潜在协同注意力机制，联合学习空间注意力（词语与图像区域对齐）和潜在语义注意力（通过对齐解码LSTM实现句子结构不变性）。
潜在语义注意力模块在每个LSTM步骤动态重加权词语特征，以降低对句子结构差异的敏感性。
第二阶段网络通过二元交叉熵损失进行训练，以预测最终的文本-视觉匹配置信度。

实验结果

研究问题

RQ1身份级别的标注能否被有效利用以提升文本-视觉匹配中的跨模态特征表示？
RQ2结合CMCE损失与协同注意力的两阶段训练框架，是否优于端到端或单阶段方法？
RQ3潜在协同注意力在多大程度上能降低句子结构差异对匹配准确率的影响？
RQ4与三元组损失或成对损失相比，所提出的CMCE损失在困难负样本采样和收敛速度方面表现如何？
RQ5第一阶段网络是否能作为第二阶段优化的有效初始化和筛选机制？

主要发现

所提方法在CUB数据集上的文本到图像检索任务中实现了57.6%的AP@50，较之前最先进方法在该指标上提升超过10个百分点。
在Flowers数据集中，该方法在文本到图像检索任务中达到70.1%的AP@50，显著优于三元组损失基线（其AP@50下降了3.1个百分点）。
仅第一阶段网络在CUB数据集上的图像到文本检索任务中即达到61.5%的top-1准确率，超越了所有先前基线方法，包括Word CNN-RNN。
在CUB数据集中，第二阶段网络相较第一阶段将文本到图像AP@50提升了12.1个百分点，证明了协同注意力机制在精细化匹配中的有效性。
定性结果表明，该模型能正确检索出同一身份的多张图像，有效缩小同一身份内的距离，同时正确排除视觉相似但错误的匹配。
消融实验确认，CMCE损失与潜在协同注意力机制均对性能提升有显著贡献，其中协同注意力机制在处理句子结构差异方面尤为有效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。