Skip to main content
QUICK REVIEW

[論文レビュー] Deep Compositional Question Answering with Neural Module Networks

Jacob Andreas, Marcus Rohrbach|arXiv (Cornell University)|Nov 9, 2015
Multimodal Machine Learning Applications参考文献 41被引用数 148
ひとこと要約

本論文では、視覚的質問応答(VQA)の性能を向上させるために、深層学習と構文的言語構造を組み合わせたニューラルモジュールネットワーク(NMNs)を提案する。質問を部分構造に分解し、オブジェクト検出や色分類などの再利用可能なニューラルモジュールを動的に組み合わせることで、モジュラーなネットワークを共同で学習させ、VQAおよび新しい複雑な形状ベースのVQAデータセットで最先端の性能を達成する。

ABSTRACT

Visual question answering is fundamentally compositional in nature---a question like where is the dog? shares substructure with questions like what color is the dog? and where is the cat? This paper seeks to simultaneously exploit the representational capacity of deep networks and the compositional linguistic structure of questions. We describe a procedure for constructing and learning *neural module networks*, which compose collections of jointly-trained neural modules into deep networks for question answering. Our approach decomposes questions into their linguistic substructures, and uses these structures to dynamically instantiate modular networks (with reusable components for recognizing dogs, classifying colors, etc.). The resulting compound networks are jointly trained. We evaluate our approach on two challenging datasets for visual question answering, achieving state-of-the-art results on both the VQA natural image dataset and a new dataset of complex questions about abstract shapes.

研究の動機と目的

  • 質問の構文的性質に着目し、言語的部分構造を明示的にモデル化すること。
  • 深層ネットワークの表現力と構造的結合性を組み合わせることで、視覚的質問応答を改善すること。
  • 多様な質問タイプにわたるコンポーネントの再利用を可能にする、学習可能なモジュラーなアーキテクチャを開発すること。
  • 動的ネットワーク構成を通じて、複雑なVQAベンチマークで優れた性能を達成すること。

提案手法

  • 言語解析を用いて自然言語の質問を構文的サブ構造に分解する。
  • コアな視覚的および言語的演算(例:オブジェクト検出、色分類)のための再利用可能なニューラルモジュールを定義する。
  • 質問の構造に基づいて、モジュールを動的に組み合わせて、タスク固有の深層ネットワークを構築する。
  • 複数の質問にわたる共同最適化を用いて、モジュラーなネットワーク全体をエンドツーエンドで学習する。
  • 微分可能モジュールを用いることで、学習中に勾配の流れを確保し、パラメータの共有と共同学習を可能にする。
  • フレームワークを自然画像VQAおよび、複雑な推論を要する抽象的形状の質問からなる新しいデータセットに適用する。

実験結果

リサーチクエスチョン

  • RQ1モジュラーなニューラルネットワークアーキテクチャは、視覚的質問の構文的構造を効果的にモデル化できるか?
  • RQ2再利用可能なモジュールの動的組み合わせは、多様な質問タイプにわたる一般化をどのように向上させるか?
  • RQ3このようなシステムは、複雑なVQAベンチマークで最先端の性能を達成できるか?
  • RQ4モジュールの共同学習は、モノリシックなネットワークと比較して、より優れた推論を可能にするか?

主な発見

  • 提案されたニューラルモジュールネットワークは、VQA自然画像データセットで最先端の性能を達成した。
  • モデルは、抽象的形状に関する複雑な質問からなる新しい挑戦的なデータセットでも強力な一般化性能を示した。
  • モジュールのコンponentsの共同学習により、ベースラインモデルと比較して推論性能が向上した。
  • 動的組み合わせ機構により、多様な質問にわたって視覚的および言語的モジュールの効果的な再利用が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。