QUICK REVIEW

[論文レビュー] Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing

Xihui Liu, Zihao Wang|arXiv (Cornell University)|Mar 3, 2019

Multimodal Machine Learning Applications参考文献 45被引用数 24

ひとこと要約

本論文は、最も顕著な視覚的または言語的特徴をオンラインで消去することでハードなトレーニングサンプルを生成することにより、参照表現定位の性能を向上させるためのクロスモーダル注意誘導型消去手法を提案する。モデルが最も顕著な手がかりを超えて補完的なクロスモーダル整合性を発見するよう強制することで、3つのベンチマークデータセットで最先端の性能を達成し、注意駆動型のマルチモーダル消去を通じてより高いロバスト性と一般化性能を示している。

ABSTRACT

Referring expression grounding aims at locating certain objects or persons in an image with a referring expression, where the key challenge is to comprehend and align various types of information from visual and textual domain, such as visual attributes, location and interactions with surrounding regions. Although the attention mechanism has been successfully applied for cross-modal alignments, previous attention models focus on only the most dominant features of both modalities, and neglect the fact that there could be multiple comprehensive textual-visual correspondences between images and referring expressions. To tackle this issue, we design a novel cross-modal attention-guided erasing approach, where we discard the most dominant information from either textual or visual domains to generate difficult training samples online, and to drive the model to discover complementary textual-visual correspondences. Extensive experiments demonstrate the effectiveness of our proposed method, which achieves state-of-the-art performance on three referring expression grounding datasets.

研究の動機と目的

注意ベースのモデルが、最も顕著な視覚的または言語的手がかりに過剰に注目し、補完的な情報を無視するという限界を是正すること。
両モダリティにおける高注目度特徴の的確な消去を通じて、困難なトレーニングサンプルを生成することでモデルの一般化性能を向上させること。
頻繁に観察される視覚的または言語的証拠へのバイアスを克服し、潜在的で顕著さに劣る対応関係の発見を促進すること。
推論の複雑性を増加させることなく、クロスモーダル注意による誘導を通じて整合性学習を向上させる手法を設計すること。

提案手法

本手法は、クロスモーダル注意重みを用いて、両モダリティからの注目度スコアに基づき、最も顕著な特徴（参照表現内の語または画像内の空間的領域）を特定・消去する。
3つの消去戦略を導入する：画像に配慮したクエリ文の消去（高注目度語を「不明」に置換）、文に配慮した主題領域の消去（高注目度の主題領域を消去）、文に配慮した文脈オブジェクトの消去（顕著な文脈オブジェクトを消去）。
消去はトレーニング中にオンラインで実行され、モデルが最も顕著な特徴に依存するのではなく補完的特徴に依存するよう強制するハードネガティブサンプルを生成する。
本手法は、モダリティ固有の特徴とクロスモーダル相互作用を併用して消去を誘導し、最も顕著ではあるが必ずしも情報量が多いとは限らない特徴を削除することを保証する。
消去されたサンプルを用いてモデルをエンドツーエンドで学習するが、推論プロセスは変更せず、効率性を維持する。
敵対的ネットワークや反復的消去に依存せず、効率的かつ効果的であるため、注意誘導型の単一ステップ消去に焦点を当てる。

実験結果

リサーチクエスチョン

RQ1顕著な特徴の注意誘導型消去は、参照表現定位におけるクロスモーダル整合性の向上に寄与するか？
RQ2クロスモーダル注意に基づく消去は、自己注意またはランダム消去と比較して、補完的な言語的・視覚的対応関係の発見に優れているか？
RQ3消去による性能向上は、モダリティ（言語的対比視覚的）およびそれらの相互作用に依存するか？
RQ4トレーニング中の消去は、推論の複雑性を増加させることなく、モデルのロバスト性を向上させることができるか？
RQ5注意誘導型消去は、スタックド注意機構と比較して、多様な整合性を学習する上で優れているか？

主な発見

提案手法であるクロスモーダル注意誘導型消去は、3つの参照表現定位ベンチマーク（RefCOCO, RefCOCO+, RefCOCOg）で最先端の性能を達成した。
RefCOCOgでは、バリデーションスプリットで80.23%、テストスプリットで80.37%の精度を達成し、先行手法を上回った。
アブレーションスタディの結果、注意誘導型消去はランダム消去（バリデーションで79.08%）および敵対的消去（バリデーションで79.31%）を著しく上回り、注意が誘導信号として有効であることを確認した。
言語的および視覚的両方の消去の組み合わせが不可欠であり、片方のモダリティのみを消去すると性能が最適でない（例：言語的消去のみで79.21%）。
反復的消去は、短い参照表現で意味の破壊のリスクがあるため、効果が劣る。
推論時における消去は性能向上に寄与しなかった。これは、モデルがトレーニング時に特徴のバランスを学習し、推論時に動的マスキングを必要としないことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。