QUICK REVIEW

[論文レビュー] An Explicitly Relational Neural Network Architecture

Murray Shanahan, Kyriacos Nikiforou|arXiv (Cornell University)|May 24, 2019

Multimodal Machine Learning Applications参考文献 33被引用数 25

ひとこと要約

この論文では、述語論理に類似した内部表現を備えた、新しい微分可能なニューラルネットワークアーキテクチャ「PrediNet」を紹介する。このアーキテクチャは、生のピクセルデータから命題的・関係的表現を明示的に学習する。視覚的関係的推論タスクのカリキュラムを通じて、再利用可能で分離可能なオブジェクトおよび関係の表現を学習することにより、データ効率性、一般化性能、転移学習の向上を実現する。

ABSTRACT

With a view to bridging the gap between deep learning and symbolic AI, we present a novel end-to-end neural network architecture that learns to form propositional representations with an explicitly relational structure from raw pixel data. In order to evaluate and analyse the architecture, we introduce a family of simple visual relational reasoning tasks of varying complexity. We show that the proposed architecture, when pre-trained on a curriculum of such tasks, learns to generate reusable representations that better facilitate subsequent learning on previously unseen tasks when compared to a number of baseline architectures. The workings of a successfully trained model are visualised to shed some light on how the architecture functions.

研究の動機と目的

深層学習と記号的AIの間のギャップを埋めるために、生のデータから汎用的で再利用可能な命題的表現をニューラルネットワークが学習できるようにすること。
既存のニューラルアーキテクチャが、オブジェクトや関係といった記号的要素への明確な対応がない、ぼやけた非構成的表現を生成するという限界を解消すること。
明示的に構造化された関係的表現が、視覚的推論タスクにおけるデータ効率性、分布外一般化性能、転移学習の向上に寄与するかどうかを評価すること。
ニューラルネットワークにおける関係的インダクティブバイアスの系統的評価のための最小限で解釈可能なベンチマークスイート（Relations Game）を開発すること。
明示的な関係的構造を促進するアーキテクチャ的制約が、エンドツーエンド微分可能であることを損なわず、より解釈可能で再利用可能な表現をもたらすかどうかを示すこと。

提案手法

PrediNetアーキテクチャは、共有されたキーおよびクエリプロジェクションを用いたマルチヘッドドット積分注意機構を採用し、生の画像入力からオブジェクトおよび関係の表現を学習する。
内部表現を並列で独立したチャネルに構造化し、関係の三つ組（主語、関係、目的語）を処理することで、命題的要素の明示的分離を可能にする。
空間パターンやオブジェクト配置を含む視覚的関係的推論タスクのファミリーを、カリキュラム学習戦略を用いてエンドツーエンドで訓練する。
空間的推論タスクにおける下流分類を実行するために、PrediNetにシンプルなマルチレイヤーパーセプトロンヘッドを結合し、表現の有効性を評価可能にする。
出力が直接的に述語論理の要素（例：関係、オブジェクト、命題）に対応するように、記号的AIにおけるものと類似した関係的事前知識をアーキテクチャに埋め込む。
内部表現の可視化を用いて、ネットワークがタスク間で関係的情報をどのように分離・合成しているかを分析する。

実験結果

リサーチクエスチョン

RQ1生のピクセルデータから、オブジェクトや関係といった記号的要素に直接対応する明示的で構造化された命題的表現を学習できるニューラルネットワークアーキテクチャを設計できるか？
RQ2このような明示的な関係的表現を学習することで、標準的なニューラルアーキテクチャと比較して、データ効率性や一般化性能が向上するか？
RQ3視覚的関係的タスクのカリキュラムを通じて学習された表現は、新たな未確認のタスクへどの程度再利用可能か？
RQ4特に並列で独立した処理チャネルの使用というアーキテクチャ的選択が、分離可能で再利用可能な表現の出現をどのように支援するか？
RQ5微分可能でエンドツーエンドのニューラルネットワークは、記号的推論システムとの将来の統合を可能にするような、記号的推論と互換性のある表現を学習できるか？

主な発見

PrediNetは、個々の成分が明確に異なるオブジェクトや関係に対応する明示的で解釈可能な表現を学習し、構成的推論を可能にする。
視覚的関係的タスクのカリキュラムで事前学習した場合、ベースラインアーキテクチャと比較して、未確認のタスクにおけるデータ効率性と一般化性能が向上する。
このアーキテクチャは効果的な転移学習を可能にする：あるタスクで学習した表現は、構造的に類似した新しいタスクに再利用可能であり、特定のオブジェクトや関係が異なっていても問題ない。
内部表現の可視化から、ネットワークが関係的成分を分離し、特定の関係やオブジェクト役割に焦点を当てる独立した注意ヘッドを学習していることが示された。
特に分布外一般化のシナリオにおいて、マルチタスクおよび転移学習設定でベースラインと比べてモデルの性能が顕著に優れている。
アーキテクチャの構造的事前知識により、再結合や再利用に適した表現が得られ、継続的で生涯にわたる学習システムへの道筋が示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。