QUICK REVIEW

[論文レビュー] Image Captioning: Transforming Objects into Words

Simao Herdade, Armin Kappeler|arXiv (Cornell University)|Jun 14, 2019

Multimodal Machine Learning Applications参考文献 26被引用数 93

ひとこと要約

Object Relation Transformerを導入。検出された物体の空間関係に基づく幾何学的な注意機構を組み込み、MS-COCOで画像キャプション生成を改善。単一モデルアプローチの中で最先端の結果を達成。

ABSTRACT

Image captioning models typically follow an encoder-decoder architecture which uses abstract image feature vectors as input to the encoder. One of the most successful algorithms uses feature vectors extracted from the region proposals obtained from an object detector. In this work we introduce the Object Relation Transformer, that builds upon this approach by explicitly incorporating information about the spatial relationship between input detected objects through geometric attention. Quantitative and qualitative results demonstrate the importance of such geometric attention for image captioning, leading to improvements on all common captioning metrics on the MS-COCO dataset.

研究の動機と目的

検出された物体間の空間的関係を明示的にモデリングして、画像キャプション生成を動機づけ、改善する。
キャプション生成のためのTransformerベースのエンコーダに幾何学的注意を統合する。
ベースラインや以前の手法に対してMS-COCOで定量的・定性的な利得を示す。

提案手法

Faster R-CNN (ResNet-101) を使用して物体を検出し、ボックスごとに2048次元の特徴を抽出する。
標準の Transformer エンコーダの注意を、外観+幾何学的注意を組み合わせたものに置換し、幾何学的重みを相対的なボックス位置とサイズから導出する。
相対幾何学 lambda(m,n) を計算し、それを埋め込んで omega_G を生成し、次に omega^{mn} = (omega_G^{mn} exp(omega_A^{mn})) / sum_l omega_G^{ml} exp(omega_A^{ml}) の結合注意を形成する。
クロスエントロピーで訓練し、自己批判的シーケンス訓練（CIDEr-D最適化）とビーム探索で微調整する。
MS-COCO 2014 Captions を CIDEr-D, SPICE, BLEU, METEOR, ROUGE-L 指標で評価する。

実験結果

リサーチクエスチョン

RQ1検出された物体間の空間関係を幾何学的注意を介して組み込むことは、画像キャプション生成の性能を向上させるか？
RQ2Object Relation Transformer は標準の Transformer および強力なベースラインと比べて MS-COCO でどのように比較されるか？
RQ3幾何学的注意が関係性と個数に関連する SPICE のサブカテゴリに与える影響は？

主な発見

アルゴリズム	CIDEr-D	SPICE	BLEU-1	BLEU-4	METEOR	ROUGE-L
Att2all	114	-	-	34.2	26.7	55.7
Up-Down	120.1	21.4	79.8	36.3	27.7	56.9
Visual-policy	126.3	21.6	-	38.6	28.3	58.5
GCN-LSTM	127.6	22.0	80.5	38.2	28.5	58.3
SGAE	127.8	22.1	80.8	38.4	28.4	58.6
Ours	128.3	22.6	80.5	38.6	28.7	58.4

Object Relation Transformer は Standard Transformer に対して CIDEr-D, SPICE, BLEU-1, BLEU-4, METEOR, ROUGE-L を改善し、いくつかの指標で統計的に有意な利得を示した。
幾何学的注意は SPICE Relation と Count のスコアを向上させ、キャプションの関係推論と物体数カウントを改善。
アブレーションでは、Transformer に物体関係を追加すると CIDEr-D と BLEU 指標でより大きな利得を生み、特にビーム探索時に効果が大きい。
サイズベースや左右上下順序と比較して、幾何学的注意は CIDEr-D を改善（112.6 対 111.0 など）し、単純な位置エンコodingより効果的であることを示した。
定性的な例では、空間認識の向上とより正確な関係性を示す（例：「傘の下に二脚の椅子」）
幾何学的注意を用いると SPICE Count のサブカテゴリが 11.30 から 17.51 に大幅に改善した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。