Skip to main content
QUICK REVIEW

[論文レビュー] SMiRL: Surprise Minimizing RL in Dynamic Environments

Glen Berseth, Daniel Geng|arXiv (Cornell University)|Dec 11, 2019
Reinforcement Learning in Robotics参考文献 20被引用数 17
ひとこと要約

SMiRL は、タスク固有の報酬なしで、予測可能で安定した行動を学習することで環境の驚き(surprise)を最小化する、教師なし強化学習手法である。この手法は、刺激の密度モデリングとポリシー最適化を交互に繰り返すことで、Tetris やヒューマノイドのバランス、迷路探索といったタスクを、予測不可能性の低減という内的動機付けによって習得する。

ABSTRACT

Every living organism struggles against disruptive environmental forces to carve out and maintain an orderly niche. We propose that such a struggle to achieve and preserve order might offer a principle for the emergence of useful behaviors in artificial agents. We formalize this idea into an unsupervised reinforcement learning method called surprise minimizing reinforcement learning (SMiRL). SMiRL alternates between learning a density model to evaluate the surprise of a stimulus, and improving the policy to seek more predictable stimuli. The policy seeks out stable and repeatable situations that counteract the environment's prevailing sources of entropy. This might include avoiding other hostile agents, or finding a stable, balanced pose for a bipedal robot in the face of disturbance forces. We demonstrate that our surprise minimizing agents can successfully play Tetris, Doom, control a humanoid to avoid falls, and navigate to escape enemies in a maze without any task-specific reward supervision. We further show that SMiRL can be used together with standard task rewards to accelerate reward-driven learning.

研究の動機と目的

  • 環境の予測不可能性を低減する内的動機付けを通じて、有用な行動を発見できる教師なし強化学習フレームワークの開発。
  • 驚き(期待される刺激からの逸脱)を最小化することが、動的で混乱をきたす環境において普遍的な学習信号として機能することの形式的定式化。
  • 明示的な報酬設計や高密度な教師信号なしに、バランスや回避行動といった強固で安定した行動を自律的に学習可能にする。
  • タスク固有の報酬が存在しない状況において、驚きの最小化が一般化ポリシー学習の基盤となり得ることの実証。

提案手法

  • 観測された刺激の尤度を推定する密度モデルを訓練することで、驚きを負の対数尤度として定量化する。
  • ポリシーは、驚きが低い刺激を引き起こす行動を選択するように最適化され、安定的で繰り返し可能な環境状態の探索を促進する。
  • 将来の観測を予測する世界モデルを統合することで、エージェントは高エントロピーで混乱を引き起こす状態を予測し回避できる。
  • 驚きの最小化を、標準的な高密度報酬と組み合わせたハイブリッド訓練方式を採用し、下流タスクの学習を加速する。
  • ポリシーは強化学習により、期待される逆驚き(inverse surprise)の期待値を最大化するように訓練され、結果として予測可能で制御可能な環境を求める。
  • 本手法は、ロボットの歩行制御やビデオゲーム環境を含む、連続的制御および離散的逐次意思決定タスクに適用可能である。

実験結果

リサーチクエスチョン

  • RQ1エージェントは、タスク固有の報酬を一切用いずに、内部の驚き最小化信号のみで動的環境において安定性を保ち、複雑な行動を学習できるか?
  • RQ2驚き最小化は、タスク固有の報酬関数なしに、有用で頑健な行動を発見するためにどの程度有効か?
  • RQ3下流タスクにおいて、標準的な高密度報酬と組み合わせた場合、驚き最小化はどの程度サンプル効率を向上させるか?
  • RQ4驚き最小化は、複雑な環境において、回避行動やバランス、戦略的計画といった自己組織的行動を促進できるか?

主な発見

  • SMiRL のエージェントは、タスク固有の報酬設計なしに驚きを最小化することで Tetris をプレイし、高いスコアを達成した。
  • Doom 環境では、エージェントが予測可能で驚きの少ない経路を求めて敵を避け、迷路を効率的に探索し、自己生存行動が顕在化した。
  • ヒューマノイドエージェントは、SMiRL により、安定的で繰り返し可能なポーズを求めてバランスを維持し、動的条件下での転倒を著しく減少させた。
  • 標準的な高密度報酬と組み合わせた場合、SMiRL は下流タスクにおける収束を顕著に加速し、サンプル効率を向上させた。
  • 驚き最小化により、報酬設計なしに、経路探索や物体操作といった複雑な目的指向行動をエージェントが発見できた。
  • 驚き最小化により、多様な環境的摂動に耐えうる頑健なポリシーが得られ、安定性と適応性においてベースライン手法を上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。