Skip to main content
QUICK REVIEW

[論文レビュー] Relational inductive bias for physical construction in humans and machines

Jessica B. Hamrick, Kelsey R. Allen|arXiv (Cornell University)|Jun 4, 2018
Design Education and Practice参考文献 33被引用数 62
ひとこと要約

この論文は、関係的帰納的バイアス—オブジェクト中心および関係中心の表現の構造化—が物理的構築タスクを効果的に可能にすることを示し、gluing task において人間および非関係ベースのベースラインを上回る graph-network ベースの RL エージェントを示す。

ABSTRACT

While current deep learning systems excel at tasks such as object classification, language processing, and gameplay, few can construct or modify a complex system such as a tower of blocks. We hypothesize that what these systems lack is a "relational inductive bias": a capacity for reasoning about inter-object relations and making choices over a structured description of a scene. To test this hypothesis, we focus on a task that involves gluing pairs of blocks together to stabilize a tower, and quantify how well humans perform. We then introduce a deep reinforcement learning agent which uses object- and relation-centric scene and policy representations and apply it to the task. Our results show that these structured representations allow the agent to outperform both humans and more naive approaches, suggesting that relational inductive bias is an important component in solving structured reasoning problems and for building more intelligent, flexible machines.

研究の動機と目的

  • 人間と機械の物理的構築能力における関係推論の役割を動機づける。
  • ブロック間の関係が重力下での安定性にどのように影響するかを研究するために、gluing task を導入する。
  • オブジェクト中心および関係中心の表現を備えた graph-network ベースの深層 RL エージェントを開発する。
  • gluing task および control tasks において、 relational と non-relational エージェントおよび人間を経験的に比較する。

提案手法

  • 塔状のブロックと、重力下で不安定な構造を安定化させる接着機構を定義する。
  • シーンをノード(ブロック)、エッジ(接着関係)、グローバル(塔の安定性)としてグラフで表し、関係を符号化/予測するために graph network を適用する。
  • RL エージェント(MLP、GN-FC、GN)とシミュレーションベースのベースラインを訓練し、 graph emissaries から Q 値または行動ポリシーを評価する。
  • 異なる塔サイズ下での安定性予測と最適な接着位置を評価する監督付き実験を行う。
  • 塔のサイズを超えた未知のブロック数に対する一般化を評価し、サイズ間での性能を比較する。
Figure 1: The gluing task. Given an unstable tower of blocks, the task is to glue pairs of blocks together to keep the tower stable. Three examples of performing the task are shown here. Green blocks in the gravity phase indicate stable blocks. Top: no glue is used, and only one block remains standi
Figure 1: The gluing task. Given an unstable tower of blocks, the task is to glue pairs of blocks together to keep the tower stable. Three examples of performing the task are shown here. Green blocks in the gravity phase indicate stable blocks. Top: no glue is used, and only one block remains standi

実験結果

リサーチクエスチョン

  • RQ1関係的帰納的バイアスは、非関係的なアプローチと比較して物理的構築タスクでより良い性能を発揮するのか?
  • RQ2GN ベースの方策は、gluing task において人間およびモデルフリーのベースラインとどのように比較されるのか?
  • RQ3明示的な物理推論(シミュレーション)と純粋な関係推論のタスク性能への影響はどのようか?
  • RQ4関係的構造は、訓練時に見ていない塔サイズへ、より大きいまたは未知の塔サイズへ一般化できるのか?
  • RQ5 humans はどのような行動パターンや戦略を示し、GN ベースのエージェントとどのように異なるのか?

主な発見

  • グラフネットワークを介した関係的帰納的バイアスは、MLP および GN-FC ベースラインに対して顕著に性能を向上させる。
  • 正しい関係構造を持つ GN エージェントは、完全連結 GN-FC エージェントより高い報酬と良好な一般化を達成する。
  • 明示的な物理知識を備えたシミュレーションベースのエージェントが最も良い性能を示すが、GN ベースのエージェントは非関係ベースのベースラインよりも依然として優れており、関係構造の重要性を示す。
  • 人間は確率以上のパフォーマンスを示し、上から下の戦略を取り、最初の接着決定は遅い傾向を示す。一方、GN エージェントは人間と比較して無効な行動が少ない。
  • 一般化: GN エージェントは見たことのない塔サイズ(7ブロック、10ブロック)でも頑健な性能を示し、最小限の劣化で一般化する一方、GN-FC はより大きい塔へ外挿するのに苦労する;MLP はサイズ間で一般化できない。
Figure 2: Graph network agent. First, the positions and orientations of the blocks are encoded as nodes, and the presence of glue is encoded as edges. These representations are then used to compute a Q-value for each edge, as well as a Q-value for taking the “stop” action. See text for details.
Figure 2: Graph network agent. First, the positions and orientations of the blocks are encoded as nodes, and the presence of glue is encoded as edges. These representations are then used to compute a Q-value for each edge, as well as a Q-value for taking the “stop” action. See text for details.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。