[论文解读] Image Captioning: Transforming Objects into Words
简要:提出对象关系变换器(Object Relation Transformer),在检测到的对象的空间关系上引入几何注意力,以提升在 MS-COCO 上的图像描述生成,并在单模型方法中达到最先进的结果。
Image captioning models typically follow an encoder-decoder architecture which uses abstract image feature vectors as input to the encoder. One of the most successful algorithms uses feature vectors extracted from the region proposals obtained from an object detector. In this work we introduce the Object Relation Transformer, that builds upon this approach by explicitly incorporating information about the spatial relationship between input detected objects through geometric attention. Quantitative and qualitative results demonstrate the importance of such geometric attention for image captioning, leading to improvements on all common captioning metrics on the MS-COCO dataset.
研究动机与目标
- 通过明确建模检测到的对象之间的空间关系来推动和改进图像描述生成。
- 在用于描述生成的 Transformer 编码器中整合几何注意力。
- 在 MS-COCO 上展示相对于基线和现有方法的定量与定性提升。
提出的方法
- 使用 Faster R-CNN (ResNet-101) 来检测对象并为每个框提取 2048 维特征。
- 用结合外观+几何注意力的编码器替换标准 Transformer 的注意力,其中几何权重来自相对框的位置和大小。
- 计算相对几何 lambda(m,n) 并对其进行嵌入以产生 omega_G,然后形成组合注意力 omega^{mn} = (omega_G^{mn} exp(omega_A^{mn})) / sum_l omega_G^{ml} exp(omega_A^{ml})。
- 以交叉熵进行训练,然后用自我批评序列训练(CIDEr-D 优化)进行微调,并使用束搜索。
- 在 MS-COCO 2014 Captions 上使用 CIDEr-D、SPICE、BLEU、METEOR 和 ROUGE-L 指标进行评估。
实验结果
研究问题
- RQ1通过几何注意力引入对象之间的空间关系是否能够提升图像描述的性能?
- RQ2Object Relation Transformer 相较于标准 Transformer 以及强基线在 MS-COCO 上的表现如何?
- RQ3几何注意力对与关系与计数相关的 SPICE 子类别有何影响?
主要发现
| 算法 | CIDEr-D | SPICE | BLEU-1 | BLEU-4 | METEOR | ROUGE-L |
|---|---|---|---|---|---|---|
| Att2all | 114 | - | - | 34.2 | 26.7 | 55.7 |
| Up-Down | 120.1 | 21.4 | 79.8 | 36.3 | 27.7 | 56.9 |
| Visual-policy | 126.3 | 21.6 | - | 38.6 | 28.3 | 58.5 |
| GCN-LSTM | 127.6 | 22.0 | 80.5 | 38.2 | 28.5 | 58.3 |
| SGAE | 127.8 | 22.1 | 80.8 | 38.4 | 28.4 | 58.6 |
| Ours | 128.3 | 22.6 | 80.5 | 38.6 | 28.7 | 58.4 |
- Object Relation Transformer 在 CIDEr-D、SPICE、BLEU-1、BLEU-4、METEOR 和 ROUGE-L 等指标上优于标准 Transformer,并在若干指标上具有统计显著的提升。
- 几何注意力使 SPICE 的关系与计数分数更高,表明在描述中实现了更好的关系推理和对象计数。
- 消融实验表明,将对象关系加入到 Transformer 中可在 CIDEr-D 和 BLEU 指标上带来更大提升,且在束搜索时尤为明显。
- 与基于大小的排序或左右/上下顺序相比,几何注意力提升了 CIDEr-D(112.6 对 111.0 及其他变体),证明其对简单位置编码的有效性。
- 定性案例显示在空间理解和关系方面的改进(例如“伞下的两把椅子”)。
- 使用几何注意力时 SPICE Count 子类从 11.30 提升到 17.51,具有显著改善。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。