QUICK REVIEW

[論文レビュー] Cross-Modal Self-Attention Network for Referring Image Segmentation

Linwei Ye, Mrigank Rochan|arXiv (Cornell University)|Apr 9, 2019

Multimodal Machine Learning Applications参考文献 31被引用数 46

ひとこと要約

本論文は、 referring image segmentation のために言語と視覚間の長距離依存性を捉えるクロスモーダル自己注意（CMSA）モジュールと、マルチスケール特徴を統合するゲーテッド・マルチレベル・フュージョンを提案し、4つのデータセットで最先端の結果を達成します。

ABSTRACT

We consider the problem of referring image segmentation. Given an input image and a natural language expression, the goal is to segment the object referred by the language expression in the image. Existing works in this area treat the language expression and the input image separately in their representations. They do not sufficiently capture long-range correlations between these two modalities. In this paper, we propose a cross-modal self-attention (CMSA) module that effectively captures the long-range dependencies between linguistic and visual features. Our model can adaptively focus on informative words in the referring expression and important regions in the input image. In addition, we propose a gated multi-level fusion module to selectively integrate self-attentive cross-modal features corresponding to different levels in the image. This module controls the information flow of features at different levels. We validate the proposed approach on four evaluation datasets. Our proposed approach consistently outperforms existing state-of-the-art methods.

研究の動機と目的

自然言語で画像中のオブジェクトを説明する場合の、単なるカテゴリベースの手がかりを超えた正確なセグメンテーションの動機付け。
言語的特徴と視覚的特徴間の長距離依存性を捉え、参照セグメンテーションを改善する。
3つのCNNレベル（Res3, Res4, Res5）からの特徴を選択的に情報フローを制御して統合する機構を開発する。

提案手法

各画像の位置と言葉ごとに画像特徴、単語埋め込み、8-Dの空間座標を組み合わせて多模態特徴を構築する。
学習されたクエリ、キー、バリューと残差接続を用いて、単語と空間領域間の長距離依存性を学習するクロスモーダル自己注意（CMSA）モジュールを適用する。
CMSAの出力を単語ごとに平均プーリングして、位置ごとのマルチモーダル特徴を取得する。
3つのCNNレベル（Res3, Res4, Res5）からの特徴を選択的にフュージョンするためのゲーテッド・マルチレベル・フュージョン（GF）モジュールを導入する。1x1畳み込み、メモリ・ゲート、リセットゲート、文脈コントローラを使用する。
最終的なセグメンテーションマスクは3x3畳み込みとシグモイドで producingし、二値クロスエントロピー損失で訓練し、Adamで最適化する。

実験結果

リサーチクエスチョン

RQ1クロスモーダル自己注意は、言語と視覚間の長距離依存性を効果的にモデル化して、referring image segmentationを実現できるか。
RQ2ゲーテッド・マルチレベル・フュージョン機構は、複数のCNN特徴レベルでセグメンテーションマスクの refine と精度を向上させるか。
RQ3単語レベルのアテンションは、マルチモーダルセグメンテーションの性能に対して文レベルのエンコーディングとどう異なるか。
RQ4マルチレベル特徴フュージョン手法は、標準ベンチマークにおけるセグメンテーション品質にどのような影響を与えるか。

主な発見

CMSAアプローチは、4つのベンチマークデータセット（UNC、UNC+、G-Ref、ReferIt）で一貫して最先端の方法を上回る。
CMSAを用いた単語レベルのマルチモーダル表現は、アブレーションで文ベースのエンコーディングや他のアテンション変種を上回る。
ゲーテッド・マルチレベル・フュージョンモジュールは、マルチスケールCMSA特徴の統合性能を向上させ、Deconv、PPM、ConvLSTM、単純なゲートベースのベースラインを上回る。
定性的分析では、レベル固有の単語アテンションが属性、関係、対象名詞に焦点を合わせ、空間ヒートマップが多様なクエリに応答する様子が示される。
アブレーション研究は、クロスモーダル自己注意とゲーテッド・フュージョンの優位性を、個別コンポーネントよりも確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。