Skip to main content
QUICK REVIEW

[論文レビュー] A simple neural network module for relational reasoning

Adam Santoro, David Raposo|arXiv (Cornell University)|Jun 5, 2017
Multimodal Machine Learning Applications参考文献 40被引用数 501
ひとこと要約

この論文は、Relation Networks(RNs)をリレーショナル推論のプラグアンドプレイモジュールとして導入し、CNN/LSTM アーキテクチャが CLEVR、bAbI、ダイナミック物理システムのタスクで最先端かつ超人レベルの推論を実現できるようにします。

ABSTRACT

Relational reasoning is a central component of generally intelligent behavior, but has proven difficult for neural networks to learn. In this paper we describe how to use Relation Networks (RNs) as a simple plug-and-play module to solve problems that fundamentally hinge on relational reasoning. We tested RN-augmented networks on three tasks: visual question answering using a challenging dataset called CLEVR, on which we achieve state-of-the-art, super-human performance; text-based question answering using the bAbI suite of tasks; and complex reasoning about dynamic physical systems. Then, using a curated dataset called Sort-of-CLEVR we show that powerful convolutional networks do not have a general capacity to solve relational questions, but can gain this capacity when augmented with RNs. Our work shows how a deep learning architecture equipped with an RN module can implicitly discover and learn to reason about entities and their relations.

研究の動機と目的

  • 知的行動の中心として関係推論を動機づけ、標準的なニューラルネットワークのこのようなタスクでの制限を特定する。
  • オブジェクトペア間の関係を計算する簡易でプラグアンドプレイのRNモジュールを提案する。
  • RNの有効性を多様な領域で示す:視覚QA(CLEVR)、テキストQA(bAbI)、およびダイナミック物理システム。

提案手法

  • RNをRN(O)=f_phi(sum_{i,j} g_theta(o_i, o_j)) と定義する。ここで o_i はオブジェクト表現である。
  • g_theta を用いてオブジェクトペア間の関係を計算し、f_phi で関係を集約する。
  • 入力を合計による順序不変性を持つオブジェクト集合として扱えるようにする。
  • 適用可能な場合には質問埋め込みなどの補助入力で g_theta を条件付ける。
  • 未構造の入力上でもCNN/LSTMの特徴量から上流のオブジェクト表現を学習することでRNが動作することを示す。
  • Adamと標準的なCNN/LSTMコンポーネントを用いたエンドツーエンドの訓練。

実験結果

リサーチクエスチョン

  • RQ1専用の関係モジュールは、異なるドメインにおけるオブジェクト間の関係推定能力をニューラルネットワークに対して改善できるか?
  • RQ2Relation Networksは既存アーキテクチャに接続したとき、データ効率の良い順序不変の関係推論を提供するか?
  • RQ3RNは視覚QA、テキストQA、ダイナミック物理システムの関係質問を解決できるか?

主な発見

  • RN付加モデルはCLEVRでピクセルからの最先端、超人レベルの性能を達成(全体95.5%)。
  • RN付加モデルは状態記述からCLEVRで96.4%の精度を達成。
  • Sort-of-CLEVRではCNN+RNが関係性と非関係性の質問を94%以上の精度で解決、CNN+MLPは関係質問で苦戦。
  • bAbIでは18/20タスクを解決し、壊滅的な失敗はなし。
  • ダイナミック物理システムではRNが接続を93%の精度で推測し、接続済みシステムを数えるのは95%の精度で、MLPを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。