QUICK REVIEW

[論文レビュー] Object-based attention for spatio-temporal reasoning: Outperforming neuro-symbolic models with flexible distributed architectures.

Xin Ding, Felix Hill|arXiv (Cornell University)|Dec 15, 2020

Topic Modeling被引用数 22

ひとこと要約

この論文は、自己注意機構と学習可能なソフトオブジェクト中心表現を備えた完全に学習可能なニューラルネットワークを提案し、時空間的推論ベンチマークである CLEVRER および CATER において、先行する神経記号的モデルを上回る性能を達成した。BERTスタイルの半教師付き損失と強いインダクティブバイアスを活用することで、ラベル付きデータの60％未満で最先端の性能を達成し、ニューラルネットワークが因果的で動的な物理的出来事について効果的に推論できないという主張に疑問を呈するものである。

ABSTRACT

Neural networks have achieved success in a wide array of perceptual tasks, but it is often stated that they are incapable of solving tasks that require higher-level reasoning. Two new task domains, CLEVRER and CATER, have recently been developed to focus on reasoning, as opposed to perception, in the context of spatio-temporal interactions between objects. Initial experiments on these domains found that neuro-symbolic approaches, which couple a logic engine and language parser with a neural perceptual front-end, substantially outperform fully-learned distributed networks, a finding that was taken to support the above thesis. Here, we show on the contrary that a fully-learned neural network with the right inductive biases can perform substantially better than all previous neural-symbolic models on both of these tasks, particularly on questions that most emphasize reasoning over perception. Our model makes critical use of both self-attention and learned soft object-centric representations, as well as BERT-style semi-supervised predictive losses. These flexible biases allow our model to surpass the previous neuro-symbolic state-of-the-art using less than 60% of available labelled data. Together, these results refute the neuro-symbolic thesis laid out by previous work involving these datasets, and they provide evidence that neural networks can indeed learn to reason effectively about the causal, dynamic structure of physical events.

研究の動機と目的

ニューラルネットワークが動的で因果的な物理的環境において高レベルの推論を実行できないという一般的な仮説に挑戦すること。
適切なインダクティブバイアスを備えた完全に学習可能なニューラルネットワークが、推論中心のタスクで神経記号的モデルを上回れるかどうかを調査すること。
自己注意機構と学習可能なオブジェクト中心表現が、ニューラルネットワークが時空間的相互作用についてどのように推論できるかを評価すること。
BERTスタイルの半教師付き予測損失が、大量のラベル付きデータに依存するのをどれほど軽減できるかを評価すること。
シンボリックなコンponentsが存在しない状況でも、ニューラルネットワークがアーキテクチャ設計を通じて推論を暗黙的に学習できるかどうかを示すこと。

提案手法

モデルは自己注意機構を用いて、フレーム間の関連する時空間的特徴に動的に注目することで、長距離依存関係と文脈的推論を可能にする。
ソフトで分散型のオブジェクト中心表現を学習することで、ハードなセグメンテーションを必要とせず、柔軟なオブジェクトのグループ化と追跡が可能になり、未観測のオブジェクト構成への一般化が向上する。
アーキテクチャは、質問-回答ペアに適用されたBERTスタイルのマスク言語モデル化と次文予測の目的関数を統合し、ペairedでないテキストを用いた半教師付き事前学習を可能にする。
モデルはラベル付きデータ上でクロスエントロピー損失を用いてエンドツーエンドで訓練され、統一可能な微分可能フレームワーク内で知覚的信号と推論的信号の両方を活用する。
インダクティブバイアスは、明示的なシンボリックコンponentsではなく、オブジェクト中心の注意と自己注意のアーキテクチャ的選択を通じて組み込まれる。
予測事前学習を活用することで、ラベル付きデータの大量必要性を低減し、従来の神経記号的モデルと比較してデータ効率的である。

実験結果

リサーチクエスチョン

RQ1適切なインダクティブバイアスを備えた完全に学習可能なニューラルネットワークが、推論中心の時空間的タスクで神経記号的モデルを上回れるか。
RQ2自己注意機構と学習可能なオブジェクト中心表現は、物理的相互作用における因果的ダイナミクスについて、ニューラルネットワークがどの程度推論を可能にするか。
RQ3BERTスタイルの半教師付き損失は、ラベル付きデータが限られた状況で推論性能をどの程度向上させるか。
RQ4明示的なシンボリックコンponentsが欠如していると、推論性能に悪影響を及えるのか、それともニューラルネットワークがアーキテクチャ設計によって暗黙的に推論を学習できるか。
RQ5完全にニューラルなアプローチが、CATERおよびCLEVRERで神経記号的モデルを上回れるか、特に知覚よりも推論に重点を置いた質問においては。

主な発見

提案されたモデルは、CLEVRERおよびCATERの両方で最先端の性能を達成し、すべての先行神経記号的モデルを上回った。
利用可能なラベル付きデータの60％未満で、前回の神経記号的SOTAを上回った。これは、高いデータ効率性を示している。
知覚よりも推論に重点を置いた質問において特に優れた性能を示し、因果的かつ動的な構造の学習が効果的に行われたことを示している。
自己注意機構とソフトオブジェクト中心表現の使用により、明示的なシンボリックな基盤なしに、複雑な時空間的相互作用に対しても一般化が可能になった。
BERTスタイルの半教師付き損失は、特にデータが少ない状況で性能を顕著に向上させ、未ペアのテキストを用いた事前学習によって実現された。
結果として、ニューラルネットワークが本質的に推論能力を欠いているという主張は否定され、適切なインダクティブバイアスを備えることで、物理的ダイナミクスについての推論を学習できることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。