Skip to main content
QUICK REVIEW

[論文レビュー] Pre-training Neural Networks with Human Demonstrations for Deep Reinforcement Learning

Gabriel Cruz, Yunshu Du|arXiv (Cornell University)|Sep 12, 2017
Anomaly Detection Techniques and Applications被引用数 26
ひとこと要約

本論文では、少量の非専門家による人間の模倣行動データを用いて深層強化学習(DRL)エージェントを事前学習させることで、特徴の学習を加速する手法を提案する。人間の軌道データ上で訓練された教師あり分類器によりDRLネットワークを初期化することで、アタリゲームにおけるDQNおよびA3Cにおいて、ノイズが多く限られたデータであるにもかかわらず、PongやFreewayで最大5倍の高速化を達成した。

ABSTRACT

Deep reinforcement learning (deep RL) has achieved superior performance in complex sequential tasks by using a deep neural network as its function approximator and by learning directly from raw images. A drawback of using raw images is that deep RL must learn the state feature representation from the raw images in addition to learning a policy. As a result, deep RL can require a prohibitively large amount of training time and data to reach reasonable performance, making it difficult to use deep RL in real-world applications, especially when data is expensive. In this work, we speed up training by addressing half of what deep RL is trying to solve --- learning features. Our approach is to learn some of the important features by pre-training deep RL network's hidden layers via supervised learning using a small set of human demonstrations. We empirically evaluate our approach using deep Q-network (DQN) and asynchronous advantage actor-critic (A3C) algorithms on the Atari 2600 games of Pong, Freeway, and Beamrider. Our results show that: 1) pre-training with human demonstrations in a supervised learning manner is better at discovering features relative to pre-training naively in DQN, and 2) initializing a deep RL network with a pre-trained model provides a significant improvement in training time even when pre-training from a small number of human demonstrations.

研究の動機と目的

  • 生画像からの状態表現の学習に起因する深層強化学習(DRL)における長時間の学習を緩和すること。
  • ランダム初期化に代えて、人間の模倣行動を用いてニューラルネットワークの特徴を事前学習させることで、DRLのサンプル複雑性を低減すること。
  • 方策学習アルゴリズムを変更せずに、特徴表現に焦点を当て、学習効率を向上させること。
  • 非専門家の模倣行動を用いた事前学習が、DRLにおいて顕著な性能向上をもたらすかどうかを実証すること。
  • データ収集が高コストな現実世界の設定において、DRLの迅速な展開を可能にすること。

提案手法

  • 各画像フレームとそれに対応する行動がペアになった、人間の模倣行動軌道の小さなデータセットを用いて、教師あり学習により深層ニューラルネットワークを事前学習する。
  • 事前学習済み分類器の重みを、DRLエージェントの初期方策ネットワークとして使用し、畳み込み層および全結合層を初期化する。
  • 事前学習済みネットワークを、深層Qネットワーク(DQN)および非同期的アドバンテージアクターキャスト(A3C)アルゴリズムの両方における初期方策として適用する。
  • ランダム初期化と比較して、より速く収束するように、事前学習済み重みからDRLエージェントを学習させる。
  • 標準的なDRL指標(人間正規化スコア、目標性能に到達するまでの学習ステップ数など)を用いて、アタリ2600ゲーム(Pong、Freeway、Beamrider)でのパフォーマンスを評価する。
  • ネットワーク層ごとの平均二乗誤差(MSE)を用いて、事前学習済み重みと最終学習済み重みの特徴類似度を測定し、特徴の保持度を評価する。

実験結果

リサーチクエスチョン

  • RQ1非専門家の模倣行動を用いた深層ニューラルネットワークの事前学習が、深層強化学習における学習時間を顕著に短縮できるか?
  • RQ2限られたノイズの多い人間の模倣行動を用いた事前学習は、ランダム初期化と比較して、学習速度および最終的パフォーマンスにおいてどのように異なるか?
  • RQ3事前学習で得られた特徴が、その後のDRL学習中にどの程度保持されるか?
  • RQ4模倣行動の質(例:ノイズ、非専門的知識)が、DRLにおける事前学習の有効性に影響を与えるか?
  • RQ5この事前学習アプローチは、DQNやA3Cといった異なるDRLアルゴリズムに一般化可能か?

主な発見

  • わずか100エピソードの人の模倣行動データを用いた事前学習により、PongおよびFreewayのDQNで学習時間を最大5倍短縮し、ランダム初期化を著しく上回った。
  • A3Cでは、事前学習済み重みで初期化したことでPongの学習が5倍高速化され、アルゴリズム間での強い一般化性を示した。
  • 事前学習済み重みと最終学習済み重みの間の平均二乗誤差(MSE)は、ランダム初期化よりも常に低く、事前学習された特徴がRL学習中に保持されていることを示した。
  • 畳み込みフィルタの可視化により、事前学習で得られた特徴(例:エッジ検出器、運動検出器)がDRL学習中に保持され、さらに精錬されていることが確認され、特徴転送の有効性が裏付けられた。
  • 模倣行動における行動分布の不均衡でさえも、事前学習済み分類器が有用な特徴を学習できたため、データの不均衡に対しても頑健であることが示された。
  • Pong、Freeway、Beamriderの3つのアタリゲームすべてで一貫した改善が得られ、特に状態遷移が極めて繰り返しやすいPongで最大の向上が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。