Skip to main content
QUICK REVIEW

[論文レビュー] Discovering objects and their relations from entangled scene representations

David Raposo, Adam Santoro|arXiv (Cornell University)|Feb 16, 2017
Multimodal Machine Learning Applications被引用数 73
ひとこと要約

Relation Networks (RNs) は場面内の物体関係を学習し、順列不変で、絡み合った入力を因子分解できる。さらに memory-augmented nets と組み合わせることでワンショットの関係学習が可能になる。

ABSTRACT

Our world can be succinctly and compactly described as structured scenes of objects and relations. A typical room, for example, contains salient objects such as tables, chairs and books, and these objects typically relate to each other by their underlying causes and semantics. This gives rise to correlated features, such as position, function and shape. Humans exploit knowledge of objects and their relations for learning a wide spectrum of tasks, and more generally when learning the structure underlying observed data. In this work, we introduce relation networks (RNs) - a general purpose neural network architecture for object-relation reasoning. We show that RNs are capable of learning object relations from scene description data. Furthermore, we show that RNs can act as a bottleneck that induces the factorization of objects from entangled scene description inputs, and from distributed deep representations of scene images provided by a variational autoencoder. The model can also be used in conjunction with differentiable memory mechanisms for implicit relation discovery in one-shot learning tasks. Our results suggest that relation networks are a potentially powerful architecture for solving a variety of problems that require object relation reasoning.

研究の動機と目的

  • 構造化された場面において物体と関係について推論する必要性を動機づける。
  • 順列不変性を有する物体のペア上で動作するニューラルアーキテクチャ(Relation Networks)を提案する。
  • RN が関係構造に基づく場面を分類できることを示す。
  • 絡み合った入力から物体様表現へ因子分解するボトルネックとして RN を示す。
  • RN と memory-augmented networks の組み合わせによるワンショットの関係学習を示す。

提案手法

  • オブジェクトを、シーン記述行列 D(m 個のオブジェクト × n 個の特徴)の特徴ベクトルとして定義する。
  • すべてのオブジェクトのペアに対して共有された MLP gψ を用いて関係を計算し、可換/結合的な関数 a(通常は和)で集約する。
  • 最終関数 fφ を用いて a から予測を生成する、すなわち r̃ = fφ(Σij gψ(oi, oj))。
  • RN を、対象が物体間の関係を記述する隣接行列である教師ありタスクで評価する。
  • 線形ボトルネック層または VAE 前処理を用いて、絡み合った入力から物体の因子分解を RN が誘導できることを示す。
  • RN を Memory-Augmented Neural Network (MANN) と組み合わせて、ワンショットの関係学習を行う。

実験結果

リサーチクエスチョン

  • RQ1RNs は scene descriptions から物体間関係構造を学習し、一般化できるか?
  • RQ2絡み合ったまたはピクセルベースの入力から物体の因子分解と関係を推定できるか?
  • RQ3メモリモジュールと組み合わせた場合、RN はワンショット学習をサポートするか?
  • RQ4関係タスクにおけるRN の性能は、MLP のベースラインと比較してどうか?
  • RQ5RN 経由の表現は、未知の関係グラフへの一般化を可能にするか?

主な発見

  • RN は、同程度の規模の MLP と比較して関係的な場面分類タスクで優れ、見たことのないクラスへ一般化する。
  • RNs can infer object relations from entangled inputs by learning a linear disentangler before the RN, revealing emergent object-factorized representations.
  • A VAE-based perceptual pathway can feed latent codes into the RN, demonstrating RN compatibility with distributed image representations.
  • RN-preprocessed MANNs achieve high one-shot relational classification within episodes, while MANNs with MLP preprocessors perform at chance.
  • RN capabilities persist when used with memory and perceptual modules, indicating broad applicability for relational reasoning tasks.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。