[論文レビュー] Towards Deep Symbolic Reinforcement Learning
この論文は、符号 grounding のニューロルバックエンドと意思決定の象徴的フロントエンドを備えたハイブリッドなニューラル-シンボリック強化学習アーキテクチャを提案し、単純なゲームのバリアントにおいて完全にニューラルなDRLよりデータ効率の高い学習と転移の利点を示す。
Deep reinforcement learning (DRL) brings the power of deep neural networks to bear on the generic task of trial-and-error learning, and its effectiveness has been convincingly demonstrated on tasks such as Atari video games and the game of Go. However, contemporary DRL systems inherit a number of shortcomings from the current generation of deep learning techniques. For example, they require very large datasets to work effectively, entailing that they are slow to learn even when such datasets are available. Moreover, they lack the ability to reason on an abstract level, which makes it difficult to implement high-level cognitive functions such as transfer learning, analogical reasoning, and hypothesis-based reasoning. Finally, their operation is largely opaque to humans, rendering them unsuitable for domains in which verifiability is important. In this paper, we propose an end-to-end reinforcement learning architecture comprising a neural back end and a symbolic front end with the potential to overcome each of these shortcomings. As proof-of-concept, we present a preliminary implementation of the architecture and apply it to several variants of a simple video game. We show that the resulting system -- though just a prototype -- learns effectively, and, by acquiring a set of symbolic rules that are easily comprehensible to humans, dramatically outperforms a conventional, fully neural DRL system on a stochastic variant of the game.
研究の動機と目的
- 主なDRLの限界であるデータ非効率性、脆弱性、高レベル推論の欠如、透明性の欠如を動機づけ、対処する。
- 象徴 grounding のためのニューラルバックエンドと、意思決定のための象徴的フロントエンドを組み合わせたエンドツーエンドのアーキテクチャを提案する。
- 象徴的推論の利点を示すため、単純なビデオゲームのバリアントで概念実証実装を示す。
- 象徴的表現を通じた転移学習と透明性の潜在能力を強調する。
提案手法
- 3段階のパイプライン: シンボリックトークンを生成するために畳み込みオートエンコーダを用いた低レベルのシンボル生成。
- オブジェクトの永続性、型、関連を用いて時空間的な象徴状態を形成する、時間を追跡する表現構築。
- オブジェクトタイプ間の相互作用に対する個別のQ関数を訓練し、それらを組み合わせて行動選択を行う局所的で成分的な強化学習アプローチ。
実験結果
リサーチクエスチョン
- RQ1ニューラルバックエンドは、生デ perceptual データから組成的でグラウンディングされた象徴表現を学習できるか?
- RQ2象徴的フロントエンドは強化学習タスクにおいてデータ効率の高い学習と転移を実現できるか?
- RQ3単純な環境における局所的なオブジェクトタイプ結合Q関数と単一のモノリシックなニューラルポリシーの利点は何か?
- RQ4オブジェクトタイプが異なりランダム化された単純ゲームのバリアントで、提案アーキテクチャは従来のDRL(DQN)とどう比較されるか?
主な発見
- ハイブリッドアーキテクチャは、プロトタイプ設定の4つのゲームバリアント全てで効果的に学習する。
- 最も困難なランダムオブジェクトのバリアントでは、象徴的アプローチがDQNを著しく上回り、DQNが1000エポック以内に失敗する中で有効なポリシーを学習する。
- バックエンドを再訓練せずに新しいバリアントへ一般化する転移様の利益を達成する。
- 象徴的フロントエンドは、関与するQ関数とオブジェクト相互作用を通じて、人間が理解できる行動の正当化の連鎖を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。