QUICK REVIEW

[論文レビュー] Pre-training Neural Networks with Human Demonstrations for Deep Reinforcement Learning

Gabriel Cruz, Yunshu Du|arXiv (Cornell University)|Sep 12, 2017

Anomaly Detection Techniques and Applications被引用数 26

ひとこと要約

本論文では、少量の非専門家による人間の模倣行動データを用いて深層強化学習（DRL）エージェントを事前学習させることで、特徴の学習を加速する手法を提案する。人間の軌道データ上で訓練された教師あり分類器によりDRLネットワークを初期化することで、アタリゲームにおけるDQNおよびA3Cにおいて、ノイズが多く限られたデータであるにもかかわらず、PongやFreewayで最大5倍の高速化を達成した。

ABSTRACT

Deep reinforcement learning (deep RL) has achieved superior performance in complex sequential tasks by using a deep neural network as its function approximator and by learning directly from raw images. A drawback of using raw images is that deep RL must learn the state feature representation from the raw images in addition to learning a policy. As a result, deep RL can require a prohibitively large amount of training time and data to reach reasonable performance, making it difficult to use deep RL in real-world applications, especially when data is expensive. In this work, we speed up training by addressing half of what deep RL is trying to solve --- learning features. Our approach is to learn some of the important features by pre-training deep RL network's hidden layers via supervised learning using a small set of human demonstrations. We empirically evaluate our approach using deep Q-network (DQN) and asynchronous advantage actor-critic (A3C) algorithms on the Atari 2600 games of Pong, Freeway, and Beamrider. Our results show that: 1) pre-training with human demonstrations in a supervised learning manner is better at discovering features relative to pre-training naively in DQN, and 2) initializing a deep RL network with a pre-trained model provides a significant improvement in training time even when pre-training from a small number of human demonstrations.

研究の動機と目的

生画像からの状態表現の学習に起因する深層強化学習（DRL）における長時間の学習を緩和すること。
ランダム初期化に代えて、人間の模倣行動を用いてニューラルネットワークの特徴を事前学習させることで、DRLのサンプル複雑性を低減すること。
方策学習アルゴリズムを変更せずに、特徴表現に焦点を当て、学習効率を向上させること。
非専門家の模倣行動を用いた事前学習が、DRLにおいて顕著な性能向上をもたらすかどうかを実証すること。
データ収集が高コストな現実世界の設定において、DRLの迅速な展開を可能にすること。

提案手法

各画像フレームとそれに対応する行動がペアになった、人間の模倣行動軌道の小さなデータセットを用いて、教師あり学習により深層ニューラルネットワークを事前学習する。
事前学習済み分類器の重みを、DRLエージェントの初期方策ネットワークとして使用し、畳み込み層および全結合層を初期化する。
事前学習済みネットワークを、深層Qネットワーク（DQN）および非同期的アドバンテージアクターキャスト（A3C）アルゴリズムの両方における初期方策として適用する。
ランダム初期化と比較して、より速く収束するように、事前学習済み重みからDRLエージェントを学習させる。
標準的なDRL指標（人間正規化スコア、目標性能に到達するまでの学習ステップ数など）を用いて、アタリ2600ゲーム（Pong、Freeway、Beamrider）でのパフォーマンスを評価する。
ネットワーク層ごとの平均二乗誤差（MSE）を用いて、事前学習済み重みと最終学習済み重みの特徴類似度を測定し、特徴の保持度を評価する。

実験結果

リサーチクエスチョン

RQ1非専門家の模倣行動を用いた深層ニューラルネットワークの事前学習が、深層強化学習における学習時間を顕著に短縮できるか？
RQ2限られたノイズの多い人間の模倣行動を用いた事前学習は、ランダム初期化と比較して、学習速度および最終的パフォーマンスにおいてどのように異なるか？
RQ3事前学習で得られた特徴が、その後のDRL学習中にどの程度保持されるか？
RQ4模倣行動の質（例：ノイズ、非専門的知識）が、DRLにおける事前学習の有効性に影響を与えるか？
RQ5この事前学習アプローチは、DQNやA3Cといった異なるDRLアルゴリズムに一般化可能か？

主な発見

わずか100エピソードの人の模倣行動データを用いた事前学習により、PongおよびFreewayのDQNで学習時間を最大5倍短縮し、ランダム初期化を著しく上回った。
A3Cでは、事前学習済み重みで初期化したことでPongの学習が5倍高速化され、アルゴリズム間での強い一般化性を示した。
事前学習済み重みと最終学習済み重みの間の平均二乗誤差（MSE）は、ランダム初期化よりも常に低く、事前学習された特徴がRL学習中に保持されていることを示した。
畳み込みフィルタの可視化により、事前学習で得られた特徴（例：エッジ検出器、運動検出器）がDRL学習中に保持され、さらに精錬されていることが確認され、特徴転送の有効性が裏付けられた。
模倣行動における行動分布の不均衡でさえも、事前学習済み分類器が有用な特徴を学習できたため、データの不均衡に対しても頑健であることが示された。
Pong、Freeway、Beamriderの3つのアタリゲームすべてで一貫した改善が得られ、特に状態遷移が極めて繰り返しやすいPongで最大の向上が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。