[論文レビュー] Stacked Cross Attention for Image-Text Matching
SC A N は Stacked Cross Attention (SCAN) を導入し、画像領域と言語文の語を整列させ、Dual attention と LogSumExp pooling によって Flickr30K および MS-COCO で最先端の画像-テキストマッチングを実現します。
In this paper, we study the problem of image-text matching. Inferring the latent semantic alignment between objects or other salient stuff (e.g. snow, sky, lawn) and the corresponding words in sentences allows to capture fine-grained interplay between vision and language, and makes image-text matching more interpretable. Prior work either simply aggregates the similarity of all possible pairs of regions and words without attending differentially to more and less important words or regions, or uses a multi-step attentional process to capture limited number of semantic alignments which is less interpretable. In this paper, we present Stacked Cross Attention to discover the full latent alignments using both image regions and words in a sentence as context and infer image-text similarity. Our approach achieves the state-of-the-art results on the MS-COCO and Flickr30K datasets. On Flickr30K, our approach outperforms the current best methods by 22.1% relatively in text retrieval from image query, and 18.2% relatively in image retrieval with text query (based on Recall@1). On MS-COCO, our approach improves sentence retrieval by 17.8% relatively and image retrieval by 16.6% relatively (based on Recall@1 using the 5K test set). Code has been made available at: https://github.com/kuanghuei/SCAN.
研究の動機と目的
- 解釈可能なクロスモーダル検索のために、潜在的な領域-語のアライメントを推定して、細粒度の画像-テキストマッチングを動機づける。
- 画像と文の両方からの文脈を用いて領域と語に重みを付ける2段階のアテンション機構を開発する。
- すべての潜在的アライメントを発見することが、固定ステップのアテンション法よりも検索性能を向上させることを示す。
提案手法
- Faster R-CNN と 2048-dim特徴量を用いた下から上への検出領域で画像を表現する。
- 共有された 1024-dim 空間で双方向GRUに基づく単語埋め込みを用いて文を表現する。
- 2つの補完的な定式化として Stacked Cross Attention を提案する: Image-Text(画像領域ごとに語に注意を払い、次に領域を重み付け)と Text-Image(語ごとに画像領域に注意を払い、次に語を重み付け)。
- 領域/語特徴間のコサイン類似度を用い、続いて LogSumExp pooling で最終的な画像-文の類似度を計算する。
- 各ミニバッチの最難負例に対してマージンを最大化する hard-negative triplet loss で学習する。
- Sum-Max ベースライン、AVG/LSE pooling、および bi-directional GRU の影響を比較するアブレーションを提供する。
実験結果
リサーチクエスチョン
- RQ1画像領域と言語語の間の潜在的で文脈を考慮したアライメントを、結合埋め込み空間で発見して画像-テキスト検索を改善できるか。
- RQ2デュアルアテンション定式化(画像主導の語アテンションと語主導の画像アテンション)は、クロスモーダルマッチングに補完的な利点をもたらすか。
- RQ3Stacked Cross Attention を介してすべての潜在アライメントを探索することは、固定ステップまたはワンショットのアテンション法より優れているか。
主な発見
| 方法 | R@1(文検索) | R@5 | R@10 | R@1(画像検索) | R@5 | R@10 |
|---|---|---|---|---|---|---|
| SCAN t-i LSE (λ1=9, λ2=6) | 61.1 | 85.4 | 91.5 | 43.3 | 71.9 | 80.9 |
| SCAN t-i AVG (λ1=9) | 61.8 | 87.5 | 93.7 | 45.8 | 74.4 | 83.0 |
| SCAN i-t LSE (λ1=4, λ2=5) | 67.7 | 88.9 | 94.0 | 44.0 | 74.2 | 82.6 |
| SCAN i-t AVG (λ1=4) | 67.9 | 89.0 | 94.4 | 43.9 | 74.2 | 82.8 |
| SCAN t-i AVG + i-t LSE | 67.4 | 90.3 | 95.8 | 48.6 | 77.7 | 85.2 |
- SCAN は Flickr30K と MS-COCO で複数の指標において最先端のリコールを達成。
- Flickr30K で、SCAN i-t AVG は文検索の R@1 が 67.9、画像検索が 74.2 を達成;SCAN t-i AVG は文検索の R@1 が 61.8、画像検索が 74.4 を達成(Table 1 に例示)
- Ensembling SCAN variants (e.g., t-i AVG + i-t LSE) yields the best Flickr30K image retrieval result with R@1 = 48.6.
- On MS-COCO (5K test), SCAN t-i AVG + i-t LSE improves R@1 for sentence retrieval by 17.8% and image retrieval by 16.6% (relative) over SCO.
- Ablation shows that hard-negatives and the Stacked Cross Attention design critically contribute to performance gains.
- Visualization confirms interpretable attention maps aligning specific words like “boy”, “holding”, and “tennis racket” to corresponding image regions.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。