Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Compose Neural Networks for Question Answering

Jacob Andreas, Marcus Rohrbach|arXiv (Cornell University)|Jan 7, 2016
Multimodal Machine Learning Applications被引用数 121
ひとこと要約

ダイナミックなニューラルモジュールネットワークは、画像と構造化された知識ベースに関する質問に答えるために、微分可能なモジュールを質問特有のアーキテクチャへ自動的に組み立て、(world, question, answer) のトリプルだけで強化学習を用いて訓練されます。

ABSTRACT

We describe a question answering model that applies to both images and structured knowledge bases. The model uses natural language strings to automatically assemble neural networks from a collection of composable modules. Parameters for these modules are learned jointly with network-assembly parameters via reinforcement learning, with only (world, question, answer) triples as supervision. Our approach, which we term a dynamic neural model network, achieves state-of-the-art results on benchmark datasets in both visual and structured domains.

研究の動機と目的

  • モジュール型ニューラルコンポーネントを用いて、視覚的・構造化された世界表現の両方に対する質問応答を可能にする。
  • レイアウト supervision なしに、質問からネットワークのレイアウトを自動的に組み立てる。
  • 回答精度を最大化するように、モジュールとレイアウト予測器を共同で訓練する。
  • 知覚と構造化推論を橋渡しする連続的表現を活用する。

提案手法

  • 微分可能なニューラルモジュールのライブラリを定義する(例: find, lookup, relate, describe, exists)。
  • 質問を、モジュールをニューラルネットワークに組み合わせる方法を指定するレイアウト z として表現する(JzKw は世界表現 w を処理するためのもの)。
  • z が固定されている場合にバックプロパゲーションを介して自動監督付きでモジュールを訓練する;レイアウトの注釈なしに p(z|x; θℓ) を学習するために REINFORCE を使用する。
  • 依存構文解析から生成された候補レイアウトを小さな候補集合へ評価し;ニューラルスコアモデルによってレイアウトを選択し、ポリシー勾配で最適化する。
  • 選択されたレイアウトを実行して p(y|z,w; θe) を取得する;θe は標準的なバックプロパゲーションで更新し、θℓ は回答精度に基づく報酬で REINFORCE 勾配により更新する。
  • エンティティや知識ベース要素へのアテンション上で動作する relate および exists モジュールを導入することにより、非視覚的世界へのモジュール拡張を行う。

実験結果

リサーチクエスチョン

  • RQ1システムは、質問からニューラルネットワークを組み立てて、異なるドメイン(画像と構造化データ)に跨って回答することを学習できるだろうか?
  • RQ2レイアウトの監督なしに、モジュールパラメータと動的ネットワークレイアウトを共同学習することで、QAの性能は向上するか?
  • RQ3連続的で微分可能なモジュールは、視覚データだけでなく構造化された世界表現に対する効果的な推論を可能にするか?
  • RQ4(world, question, answer) のトリプルのみを用いてレイアウト予測を訓練する際、強化学習は現実的なアプローチか?

主な発見

  • ダイナミックなモジュールの組み立てを用いて、視覚質問応答(VQA)および組成的地理QAタスク(GeoQA)で最先端の結果を達成した。
  • 単純なレイアウト(describe and and find)を選択するダイナミックネットワークを用いてVQAで従来モデルを上回り、GeoQAでは純粋に論理的モデルと固定構造 NMN の双方より高い精度を達成した。
  • 動的ネットワークは、構成的推論および数量化を必要とする質問で特に効果を示した。
  • モデルは画像の関連領域および知識ベース内の関連エンティティに注意を向けることを学習し、多くのケースで正確な回答を可能にした。
  • GeoQA+Q(量化子を含む)では、ダイナミックレイアウト予測器が固定構造のベースラインに対して顕著な改善をもたらした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。