QUICK REVIEW

[論文レビュー] Modeling Relationships in Referential Expressions with Compositional Modular Networks

Ronghang Hu, Marcus Rohrbach|arXiv (Cornell University)|Nov 30, 2016

Multimodal Machine Learning Applications参考文献 1被引用数 21

ひとこと要約

本稿では、参照表現をソフトアテンションを用いて主語、関係、目的語のコンponentsに分解することで、参照表現をモデル化する新しいエンドツーエンド微分可能なアーキテクチャであるコンポジショナルモジュラー・ネットワーク（CMNs）を提案する。このアーキテクチャは、局所化モジュールと関係性モジュールの2種類のニューラルモジュールを用い、言語的解析と視覚的グランドイングを同時に学習する。複数の参照表現および視覚的グランドイングベンチマークで、最先端の手法を上回る性能を発揮する。

ABSTRACT

People often refer to entities in an image in terms of their relationships with other entities. For example, "the black cat sitting under the table" refers to both a "black cat" entity and its relationship with another "table" entity. Understanding these relationships is essential for interpreting and grounding such natural language expressions. Most prior work focuses on either grounding entire referential expressions holistically to one region, or localizing relationships based on a fixed set of categories. In this paper we instead present a modular deep architecture capable of analyzing referential expressions into their component parts, identifying entities and relationships mentioned in the input expression and grounding them all in the scene. We call this approach Compositional Modular Networks (CMNs): a novel architecture that learns linguistic analysis and visual inference end-to-end. Our approach is built around two types of neural modules that inspect local regions and pairwise interactions between regions. We evaluate CMNs on multiple referential expression datasets, outperforming state-of-the-art approaches on all tasks.

研究の動機と目的

画像内の対象間の関係を含む複雑な参照表現のグランドイングの課題に取り組む。
従来の統合的グランドイングモデルが明示的な言語的コンponentsと視覚的対応関係をモデル化できないという限界を克服する。
事前に定義された関係カテゴリに依存せずに、合成的な言語的構造と視覚的グランドイングのエンドツーエンド学習を可能にする。
微分可能なパーサーを備えたモジュラーなニューラルアーキテクチャを開発し、テキストコンponentsを画像領域に一致させる。
弱教師付き学習を用いて、多様な参照表現および視覚的グランドイングタスクで強力な性能を達成する。

提案手法

入力された参照表現を、主語、関係、目的語のコンponentsに分解するため、ソフトアテンションマップを用いる。
局所化モジュール（一元的領域スコアリング用）と関係性モジュール（対照の領域スコアリング用）の2種類の異なるニューラルモジュールを導入する。
両モジュールの出力を統合し、最終的な領域ペアスコアを生成することでグランドイング予測を実現する。
正しいグランドイングを促進する微分可能な損失関数（式20）を用いて、弱教師付き学習によりエンドツーエンドでモデルを訓練する。
画像領域と提案領域からの視覚的特徴抽出に事前学習済みのFaster R-CNN（VGG-16）を活用する。
微分可能なアテンション機構を用いて、各テキストコンponentsを関連する画像領域に一致させるが、各コンponentsに対する明示的なアノテーションは不要である。

実験結果

リサーチクエスチョン

RQ1ニューラルネットワークアーキテクチャは、エンドツーエンド微分可能な形で、参照表現の言語的解析と視覚的グランドイングを同時に学習できるか？
RQ2主語、関係、目的語に分けるコンポジショナルなアプローチを採用することで、統合的アプローチと比較してグランドイング精度が向上するか？
RQ3局所化と対照的関係性のための別々のモジュールを用いるモジュラーなアーキテクチャは、固定カテゴリ制約なしに多様な参照表現に一般化できるか？
RQ4標準的な参照表現および視覚的グランドイングベンチマークにおいて、提案されたCMNモデルは強力なベースラインおよび先行研究の最先端手法と比較してどの程度の性能を示すか？
RQ5弱教師付き学習のみで、合成的構造と視覚的対応関係をどの程度回復できるか？

主な発見

Google-Refデータセットでは、自然なベースラインおよび最先端の手法を上回り、参照表現のグランドイング精度が向上した。
Visual-7Wデータセットでは、フルCMNモデルが、外部パーサーを用いたモデルや、局所的外観特徴のみを用いたモデルよりも、複数選択式の指差し質問の正答率が高かった。
局所化モジュールと関係性モジュールの両方の統合により、モデルの性能が顕著に向上しており、モジュラーかつ合成的推論の利点が示された。
アブレーションスタディの結果、外部パーサー（Stanfordパーサー）を用いた短縮版とは対照的に、エンドツーエンド学習を用いたフルCMNモデルが優れた性能を発揮した。
図5および図6の定性的な結果から、CMNsは空間的・関係的・記述的属性を含む、複雑な複数対象関係を含む表現を正しくグランドイングしていることが示された。
モデルは未学習の表現に対しても一般化が良く、空間的および関係的記述が複雑なデータセットを含む多様なデータセットで強力な性能を発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。