QUICK REVIEW

[論文レビュー] Keeping Your Distance: Solving Sparse Reward Tasks Using Self-Balancing Shaped Rewards

Alexander T. Trott, Stephan Zheng|arXiv (Cornell University)|Nov 4, 2019

Reinforcement Learning in Robotics被引用数 31

ひとこと要約

この論文では、距離からゴールまでの報酬形状を学習する際の局所最適解に陥るのを防ぐために、ペアドロールアウトを用いた自己バランス報酬形状手法であるSibling Rivalryを提案する。兄弟軌道同士を比較することで、追加の報酬設計を必要とせず多様な探索を促進する。これにより、迷路走破やMinecraftにおける3次元構築といった報酬が疎であるタスクにおいて、効率的な学習が可能になる。標準的な形状化手法や内因的好奇心では失敗するタスクでも有効である。

ABSTRACT

While using shaped rewards can be beneficial when solving sparse reward tasks, their successful application often requires careful engineering and is problem specific. For instance, in tasks where the agent must achieve some goal state, simple distance-to-goal reward shaping often fails, as it renders learning vulnerable to local optima. We introduce a simple and effective model-free method to learn from shaped distance-to-goal rewards on tasks where success depends on reaching a goal state. Our method introduces an auxiliary distance-based reward based on pairs of rollouts to encourage diverse exploration. This approach effectively prevents learning dynamics from stabilizing around local optima induced by the naive distance-to-goal reward shaping and enables policies to efficiently solve sparse reward tasks. Our augmented objective does not require any additional reward engineering or domain expertise to implement and converges to the original sparse objective as the agent learns to solve the task. We demonstrate that our method successfully solves a variety of hard-exploration tasks (including maze navigation and 3D construction in a Minecraft environment), where naive distance-based reward shaping otherwise fails, and intrinsic curiosity and reward relabeling strategies exhibit poor performance.

研究の動機と目的

報酬が疎なタスクにおいて、単純な距離からゴールまでの報酬形状化が局所最適解に陥る問題を解消すること。
ドメイン特有の報酬設計や外部モジュールを必要とせず、探索を向上させる手法を開発すること。
元の疎な報酬の目的に整合性を保ちつつ、サンプル効率と収束性を向上させること。
迷路走破やMinecraftにおける3次元ナビゲーションや構築といった、探索が困難な環境でも効果的な学習を可能にすること。
一般化可能で、モデルフリーなアプローチを提供し、既存の強化学習フレームワークにスムーズに統合できること。

提案手法

同じ方策、初期状態、ゴールのもとで独立にサンプリングされたペアのロールアウト（兄弟軌道）を比較する、補助的報酬を導入する。
他の軌道とあまりに類似した行動をとるのをペナルティ化することで、局所最適解への収束を妨げる自己バランス報酬を計算する。
コアなメカニズムは、兄弟軌道間の相対的距離からゴールまでの距離を用いて、局所最適解を推定し、それらから離れる探索を促進することに使われる。
形状化報酬は動的に調整される：方策が改善しゴールに到達するようになると、元の疎な報酬に収束する。
モデルフリーであり、外部の世界モデルや好奇心モジュールの学習や維持を必要としない。
階層的強化学習とも互換性があり、連続的および離散的アクション空間の両方へ適用可能である。

実験結果

リサーチクエスチョン

RQ1問題特有の報酬設計を必要とせず、距離からゴールまでの報酬形状化を局所最適解に対して頑健にできるか？
RQ2兄弟軌道の比較が、報酬が疎な環境において学習の安定性を高め、早期収束を防げるか？
RQ3自己バランス報酬メカニズムは、元のタスクの目的を保ちつつ、サンプル効率を向上させられるか？
RQ4内因的好奇心や後向き経験リプレイと比較して、探索が困難なタスクにおいてどのように性能を発揮するか？
RQ5この手法は、複雑な3次元構築タスクを含む多様な環境に一般化可能か？

主な発見

Sibling Rivalryは、単純な距離からゴールまでの報酬形状化が失敗するMinecraftにおける迷路走破および3次元構築タスクを成功裏に解決した。
探索効率と最終タスクパフォーマンスの両面で、内因的好奇心や報酬再ラベル化のベースラインを上回った。
Minecraft環境では、4806の異なるゴール構造設定において高い成功確率を達成し、優れた一般化能力を示した。
エージェントが学習を進めるにつれ、自己バランス報酬は元の疎な報酬に収束し、方策の最適性が保たれた。
階層的制御設定でも効果的な学習が可能であり、複雑なタスク構造とも互換性があることが実験で確認された。
実験により、兄弟軌道比較が局所最適解を効果的に不安定化させつつ、新たな安定吸引子を導入しないことが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。