Skip to main content
QUICK REVIEW

[論文レビュー] Learning values across many orders of magnitude

Hado van Hasselt, Arthur Guez|arXiv (Cornell University)|Feb 24, 2016
Reinforcement Learning in Robotics参考文献 30被引用数 87
ひとこと要約

この論文では、強化学習における時系列差分ターゲットの適応的正規化を可能にする、Pop-Art(Policy-Weighted Adaptive Reward Transformation)を提案する。値関数が多数のオーダーにわたり変動する状況に対応するため、平均と分散の走査推定値を用いてターゲットを動的にスケーリングすることで、報酬クリッピングを必要とせず安定した学習を実現する。この手法により、多様なAtariゲームで最先端の性能を達成するとともに、報酬スケールが異なるタスク間でも一般化性を維持する。

ABSTRACT

Most learning algorithms are not invariant to the scale of the function that is being approximated. We propose to adaptively normalize the targets used in learning. This is useful in value-based reinforcement learning, where the magnitude of appropriate value approximations can change over time when we update the policy of behavior. Our main motivation is prior work on learning to play Atari games, where the rewards were all clipped to a predetermined range. This clipping facilitates learning across many different games with a single learning algorithm, but a clipped reward function can result in qualitatively different behavior. Using the adaptive normalization we can remove this domain-specific heuristic without diminishing overall performance.

研究の動機と目的

  • 異なる強化学習タスクにおける値関数のオーダーの大きな変動が引き起こす不安定さやハイパーパrameterへの感受性を解消すること。
  • ドメイン特有の報酬クリッピングの必要性を排除することで、学習目的の歪みや、質的に異なるポリシーが得られる可能性を回避すること。
  • 報酬スケールが著しく異なる環境(例:Atariドメイン)をカバーする一貫した学習アルゴリズムの一般化を可能にすること。
  • 学習全体を通して正規化されたターゲットを維持することで、値ベースの深層強化学習における学習安定性と性能を向上させること。
  • DQNに限らず、教師あり学習や非定常オンライン設定など、幅広い文脈に適用可能な汎用的正規化手法を提供すること。

提案手法

  • 指数移動平均を用いて走査推定された平均と分散を用いて、時系列差分ターゲットの適応的正規化を提案する。
  • 推定された平均と標準偏差を用いてターゲットを再重み付けする変換を導入し、安定した正規化範囲に保つ。
  • リアルタイムでターゲット分布を調整可能なパrameter化された変換を採用し、ポリシー更新にかかわらず一貫したスケールを維持する。
  • 値関数の線形変換に対して不変性を保つ微分可能な更新ルールを採用し、最適化の安定性を向上させる。
  • Double DQNに適用し、固定報酬クリッピングに代えて適応的正規化を導入することで、多様なゲームで性能を維持する。
  • ポリシー更新下でも正規化ターゲットが一貫性を保つ理論的保証を導出する。

実験結果

リサーチクエスチョン

  • RQ1固定報酬クリッピングに依存せずに、値ターゲットの適応的正規化が深層強化学習における学習安定性と性能向上に寄与するか?
  • RQ2報酬クリッピングのヒューリスティックを排除することで、多様な環境において質的に優れた、またはより一般化可能なポリシーが得られるか?
  • RQ3固定ハイパーパrameterを用いた一貫した学習アルゴリズムが、適応的正規化を用いることで、報酬マグニチュードが著しく異なる環境間で一般化可能か?
  • RQ4Atariゲームにおけるサンプル効率と最終性能の観点から、固定クリッピングと比較して適応的正規化はどのように優れているか?
  • RQ5値ベースRLにおけるハイパーパrameter選択への感受性が、適応的正規化によってどの程度軽減されるか?

主な発見

  • Pop-Artは30個のAtariゲームのうち25個で固定報酬クリッピングを用いたDouble DQNを上回り、Ms. Pac-Man や Video Pinball などの高マグニチュードゲームで顕著な向上を示した。
  • Video Pinballでは、Pop-Artが309,941.90のスコアを達成した一方で、クリッピングを用いたDouble DQNは25,89.70にとどまった。
  • Ms. Pac-Manでは、Pop-Artが4,963.80点を記録したのに対し、クリッピングを用いたバージョンは2,711.40点にとどまり、高報酬状況での学習向上が明確に示された。
  • Pop-Artは、報酬がスパarsityや負の値を取るゲームに対しても、ドメイン特有のチューニングなしに強力な性能を維持した。
  • 報酬スケールが-10,000から+100,000まで変動するゲーム間で、報酬スケールが多数のオーダーにわたる環境でも安定した学習が可能となった。
  • アブレーションスタディの結果、報酬クリッピングを排除したPop-Artは、クリッピングベースラインで見られるポリシー劣化を回避し、より良い一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。