QUICK REVIEW

[論文レビュー] Learning to Reason: End-to-End Module Networks for Visual Question Answering

Ronghang Hu, Jacob Andreas|arXiv (Cornell University)|Apr 18, 2017

Multimodal Machine Learning Applications参考文献 25被引用数 113

ひとこと要約

この論文は、End-to-End Module Networks (N2NMNs) を提案します。質問からインスタンス固有のネットワークレイアウトを予測し、注意機構を用いたニューラルモジュールの集合を用いて視覚質問応答を実行します。CLEVRでの大きな向上を示し、エンドツーエンドのトレーニングと監視付きプリトレーニングおよび強化学習によりVQAで競争力のある結果を得ています。

ABSTRACT

Natural language questions are inherently compositional, and many are most easily answered by reasoning about their decomposition into modular sub-problems. For example, to answer "is there an equal number of balls and boxes?" we can look for balls, look for boxes, count them, and compare the results. The recently proposed Neural Module Network (NMN) architecture implements this approach to question answering by parsing questions into linguistic substructures and assembling question-specific deep networks from smaller modules that each solve one subtask. However, existing NMN implementations rely on brittle off-the-shelf parsers, and are restricted to the module configurations proposed by these parsers rather than learning them from data. In this paper, we propose End-to-End Module Networks (N2NMNs), which learn to reason by directly predicting instance-specific network layouts without the aid of a parser. Our model learns to generate network structures (by imitating expert demonstrations) while simultaneously learning network parameters (using the downstream task loss). Experimental results on the new CLEVR dataset targeted at compositional question answering show that N2NMNs achieve an error reduction of nearly 50% relative to state-of-the-art attentional approaches, while discovering interpretable network architectures specialized for each question.

研究の動機と目的

視覚質問応答における組成的推論を、外部パーサーに依存せずに質問をサブタスクへ分解して学習することによって解決する。
質問からインスタンス固有のネットワークレイアウトを予測し、それに応じてニューラルモジュールを組み立てる。
レイアウトポリシーとモジュールド parameters をエンドツーエンドで共同訓練し、監視付き（ビヘイビアラルクローニング）と強化学習の信号を用いる。
モジュール化された注意駆動型アーキテクチャが、組成的なVQAベンチマークにおける解釈性と性能を向上させることを示す。

提案手法

画像のアテンションマップとテキスト特徴量に作用する、find、relocate、and、or、filter、describe などのニューラルモジュールのライブラリを導入する。
各モジュールを、画像と質問特徴量のゼロ、1、または2つのアテンションマップとともに消費するパラメータ化関数として表現する。
質問語に対するソフトアテンションを用いて、モジュールのパラメータを生成する反復ポーランド記法（Reverse Polish Notation）で表現された質問特異のレイアウトを、sequence-to-sequence RNNで予測する。
予測されたレイアウトで記述されたネットワークを組み立てて実行し、答えを出力する。
ベースラインを用いた方策勾配法でのレイアウトに対する期待損失をエンドツーエンドで最適化し、分散を減らすために前方推定を用いる。必要に応じて expert レイアウトからのビヘイビアラルクローニングによる事前学習を実施する。
質問語のソフトアテンションを用いて、ハードコードされた語の割り当ての代わりにモジュール固有のテキストパラメータを提供する。

実験結果

リサーチクエスチョン

RQ1外部パーサーに依存せず、エンドツーエンドで学習されたレイアウトポリシーが各質問に対して有効なモジュールレイアウトを予測できるか。
RQ2モジュールのソフトアテンションベースのテキストパラメータは、固定のテキストパラメータよりも柔軟性と性能を改善するか。
RQ3初期の監視付きクローニングの有無に関わらず、エンドツーエンド訓練は解釈可能で質問ごとに特化した推論アーキテクチャと、組成的VQAタスクにおけるQA精度の改善を生み出すか。
RQ4このアプローチはCLEVRで最先端の結果を達成し、VQAデータセットで競争力のある結果を示すか。

主な発見

CLEVR では、ビヘイビアラルクローニングとポリシーサーチによる大幅な改善を含む強力な成果を挙げ、いくつかのベースラインを上回っている。
shapeデータでは、ビヘイビアラルクローニングが100%の精度を達成し、スクラッチからのポリシーサーチは96.19%を達成した。
CLEVR テストセットでは、クローニングの後にポリシーサーチを行った方法が83.7%の全体精度に達し、従来のNMNベースラインや多くの非モジュラー手法を上回っている。
VQA では、クローニングのエキスパートまたはクローニング後のポリシーサーチを用いたモデルが競争力のある精度を達成し、NMNおよびD-NMNを上回り、類似の視覚特徴の下でMCBの結果に近づいている。
このアプローチは、各質問に適応するインスタンス固有のネットワークレイアウトとモジュール式アーキテクチャを提供し、解釈性を持つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。