[論文レビュー] Learning Visual Relation Priors for Image-Text Matching and Image Captioning with Neural Scene Graph Generators
この論文は R-SCAN と関係ベースのトップダウンキャプショナーを提案し、ニューラルシーングラフ(視覚的リレーション)特徴を活用して画像とテキストのマッチングおよび画像キャプショニングを向上させ、VrR-VG で学習された関係を用いて VG150 ではなく、Flickr30K と MSCOCO の単一モデル性能で最先端を達成します。
Grounding language to visual relations is critical to various language-and-vision applications. In this work, we tackle two fundamental language-and-vision tasks: image-text matching and image captioning, and demonstrate that neural scene graph generators can learn effective visual relation features to facilitate grounding language to visual relations and subsequently improve the two end applications. By combining relation features with the state-of-the-art models, our experiments show significant improvement on the standard Flickr30K and MSCOCO benchmarks. Our experimental results and analysis show that relation features improve downstream models' capability of capturing visual relations in end vision-and-language applications. We also demonstrate the importance of learning scene graph generators with visually relevant relations to the effectiveness of relation features.
研究の動機と目的
- 視覚と言語モデルにシーングラフのリレーション特徴を組み込むことで、 grounding を促進する動機づけ。
- リレーション対応の特徴が、強力なベースラインよりも画像とテキストの検索とキャプショニングを改善することを示す。
- シーングラフ生成器を semantically rich なリレーションデータセット VrR-VG で学習させることの重要性を示し、VG150 ではなくVrR-VG を用いる。
- 画像と言語のマッチングのための SCAN のリレーション対応版(R-SCAN)と、リレーションベースのトップダウンキャプショナーを開発。
- VrR-VG で学習された視覚的に関連するリレーションが下流タスクで意味のある向上をもたらすことを分析で確認する。
提案手法
- SCAN のリレーション対応拡張である R-SCAN を提案し、シーングラフ生成器からの領域(オブジェクト/ stuff)と視覚的リレーション特徴の両方をエンコードする。
- 単語を領域特徴とリレーション特徴の両方に対して整列させるソフトアテンション機構を用い、単語ごとにそれらを適応的に結合する視覚特徴融合ゲートを設ける。
- -attended region and relation representationsのゲーティッド融合を用いて語と画像の類似度を計算する。
- ミニバッチ内の最も難しいネガティブ例に対してヒンジトリプレットランク損失で学習する。
- トップダウンキャプショナーを拡張し、シーングラフからのアテンション済みリレーション特徴を領域特徴とともに言語モデルに供給する。
- VrR-VG 上で Stacked Motif Network のシーングラフ生成器を事前学習させ、Visual Genome VG150 のバイアスを回避して意味的に豊かなリレーション埋め込みを得る。
- VG150 で学習したリレーション特徴と比較するオプションを設け、VrR-VG 学習のリレーションの優位性を示す。
実験結果
リサーチクエスチョン
- RQ1 neural scene graph で学習したリレーション特徴は、領域のみのベースラインと比べて画像とテキストのマッチングを改善するか。
- RQ2リレーション特徴はトップダウンキャプショナーに組み込んだとき、画像キャプショニングを助けるか。
- RQ3VrR-VG と VG150 の事前学習がエンドタスクの性能にどう影響するか。
- RQ4視覚的に関連するリレーションを学習することは、検索とキャプショニングタスクにおいて言語を視覚内容へ grounding するうえで必須か。
主な発見
| データセット | モデル | テキスト→画像 r@1 | テキスト→画像 r@5 | テキスト→画像 r@10 | 画像→テキスト r@1 | 画像→テキスト r@5 | 画像→テキスト r@10 |
|---|---|---|---|---|---|---|---|
| Flickr30K | SCAN t-i AVG | 37.9 | 69.4 | 80.8 | 38.5 | 70.7 | 82.5 |
| Flickr30K | R-SCAN-VG150 | 39.8 | 70.6 | 82.0 | 38.1 | 71.0 | 83.5 |
| Flickr30K | R-SCAN-VrRVG | 40.1 | 70.5 | 81.8 | 39.6 | 72.7 | 83.7 |
| MSCOCO 5K | SCAN t-i AVG | 45.8 | 74.4 | 83.0 | 61.8 | 87.5 | 93.7 |
| MSCOCO 5K | R-SCAN (VrR-VG) | 57.6 | 87.3 | 93.7 | 70.3 | 94.5 | 98.1 |
| MSCOCO 5K | R-SCAN (VrR-VG) – Table 3 variant | 36.2 | 65.5 | 76.7 | 45.4 | 77.9 | 87.9 |
- VrR-VG リレーション特徴を用いた R-SCAN は Flickr30K および MSCOCO で SCAN ベースラインを上回るクロスモーダル検索性能を示す。
- Flickr30K 1K テストでは、R-SCAN VrR-VG は recall@1 が 40.1(text-to-image)と 39.6(image-to-text)で、SCAN t-i AVG の 37.9 および 38.5 を上回る。
- MSCOCO 5K テストでは、R-SCAN VrR-VG は recall@1 が 57.6(text-to-image)と 70.3(image-to-text)で、SCAN t-i AVG の 45.8 および 61.8 を上回る(1つの比較設定)。Table 3 は variant で 36.2(text-to-image)と 45.4(image-to-text)を報告。
- VrR-VG での事前学習は、下流タスクにおいて VG150 より高い利益をもたらす。
- VrR-VG リレーションを用いたリレーションベースのトップダウンキャプショニングは、ベースラインのトップダウンキャプショナーより CIDEr および SPICE スコアを改善(CIDEr: 114.9→126.1、クロスエントロピーと CIDEr 最適化;SPICE: 20.9→21.8)。
- 本アプローチはグラフ畳み込みネットワークを回避し、シーングラフ由来のリレーション埋め込みを直接活用して言語を視覚に grounding する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。