Skip to main content
QUICK REVIEW

[論文レビュー] Compositional Attention Networks for Machine Reasoning

Drew A. Hudson, Christopher D. Manning|arXiv (Cornell University)|Mar 8, 2018
Multimodal Machine Learning Applications参考文献 24被引用数 132
ひとこと要約

MACネットワークを紹介。視覚質問応答のための明示的で多段の推論を実行する完全微分可能なアーキテクチャで、CLEVRで最先端を達成し、高いデータ効率を実現。

ABSTRACT

We present the MAC network, a novel fully differentiable neural network architecture, designed to facilitate explicit and expressive reasoning. MAC moves away from monolithic black-box neural architectures towards a design that encourages both transparency and versatility. The model approaches problems by decomposing them into a series of attention-based reasoning steps, each performed by a novel recurrent Memory, Attention, and Composition (MAC) cell that maintains a separation between control and memory. By stringing the cells together and imposing structural constraints that regulate their interaction, MAC effectively learns to perform iterative reasoning processes that are directly inferred from the data in an end-to-end approach. We demonstrate the model's strength, robustness and interpretability on the challenging CLEVR dataset for visual reasoning, achieving a new state-of-the-art 98.9% accuracy, halving the error rate of the previous best model. More importantly, we show that the model is computationally-efficient and data-efficient, in particular requiring 5x less data than existing models to achieve strong results.

研究の動機と目的

  • 明示的で構造化された推論をサポートするニューラルアーキテクチャを提案する動機づけ。
  • 制御とメモリを分離して反復推論ステップを実行するMACセルを開発する。
  • 高いデータ効率と解釈可能性を持つCLEVRでの高い性能を示す。

提案手法

  • 3つのユニット:制御、読み取り、書き込みを備え、デュアル状態(制御とメモリ)で動作するMACセルを提案する。
  • 各推論ステップを導くために質問語に対するアテンションを用い、位置認識付きの各ステップの質問表現 q_i を用いる。
  • 現在の制御とメモリに導かれた画像領域に対して、読み取りユニットで二段階のアテンション機構を用いる。
  • 読み出した情報を書き込みユニットを介してメモリに統合し、過去のメモリに対するオプションの自己アテンションおよび推論長を適応させるメモリゲートを備える。
  • 入力は別の入力ユニットで処理される:質問を通るbiLSTMとCNNベースの画像特徴から知識ベース K と質問表現 q を形成する。
  • 出力ユニットは最終メモリ状態 m_p と質問を用いて答えを予測する分類器を使用する。

実験結果

リサーチクエスチョン

  • RQ1完全に微分可能なアーキテクチャは、外部プログラムの監修なしに明示的な多段推論を学習できるだろうか?
  • RQ2アテンションベースの推論ステップで制御とメモリを分離することは、視覚的質問応答の解釈性、データ効率、および一般化を改善するか?
  • RQ3VQA設定における数え上げ・集約タスクでMACアーキテクチャはどのように性能を示すか?
  • RQ4MACは言語的変動に対して頑健で、限られたデータからの迅速な学習が可能か?

主な発見

モデルCLEVR存在比較クエリ比較人間人間総合
MAC98.997.199.599.199.599.557.481.5
  • CLEVRでの最先端精度98.9%を達成(従来モデルより大幅に改善)。
  • 数え上げおよび数値比較タスクで高い性能を示す。
  • より速い学習と高いデータ効率を示し、高精度を達成するのに必要なデータ量が substantially less。
  • 微調整後にCLEVR-Humansデータセットを含む、堅牢性とより良い一般化を示す。
  • アブレーション研究は、質問アテンション、制御とメモリの分離、明示的な多段推論の重要性を確認する。
  • 推論ステップと推移関係を示す解釈可能なアテンションマップを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。