QUICK REVIEW

[論文レビュー] Learning Purposeful Behaviour in the Absence of Rewards

Marlos C. Machado, Michael Bowling|arXiv (Cornell University)|May 25, 2016

Reinforcement Learning in Robotics参考文献 19被引用数 24

ひとこと要約

本論文では、ランダムな探索中に観察される「固有目的（eigenpurposes）」と呼ばれる繰り返し発生する状態変化を同定することで、報酬なしに意味のある、時間的に延長された行動（オプション）を発見する報酬フリーなアルゴリズムを提案する。これらの目的を内因的な部分目標として扱い、学習された報酬信号を用いることで、疎な報酬環境においても、複雑で目的志向の強い方策を獲得する。実験では、完全観測および部分観測の両設定において、状態空間の到達可能性が著しく向上することを示した。

ABSTRACT

Artificial intelligence is commonly defined as the ability to achieve goals in the world. In the reinforcement learning framework, goals are encoded as reward functions that guide agent behaviour, and the sum of observed rewards provide a notion of progress. However, some domains have no such reward signal, or have a reward signal so sparse as to appear absent. Without reward feedback, agent behaviour is typically random, often dithering aimlessly and lacking intentionality. In this paper we present an algorithm capable of learning purposeful behaviour in the absence of rewards. The algorithm proceeds by constructing temporally extended actions (options), through the identification of purposes that are "just out of reach" of the agent's current behaviour. These purposes establish intrinsic goals for the agent to learn, ultimately resulting in a suite of behaviours that encourage the agent to visit different parts of the state space. Moreover, the approach is particularly suited for settings where rewards are very sparse, and such behaviours can help in the exploration of the environment until reward is observed.

研究の動機と目的

報酬が存在しない、または極めて疎な報酬信号しか与えられない環境における知能エージェントの訓練という課題に取り組む。
外在的報酬に依存せずに、意図性や構造的行動を発展させることを可能にする。
構造化されていない探索から、自動的に有用で時間的に延長された行動（オプション）を発見すること。
観察可能な状態変化に基づく内因的部分目標を用いることで、探索の効率を向上させること。
報酬が存在しない部分観測環境でも、効果的な学習を可能にすること。

提案手法

アルゴリズムは、ランダムなエージェント行動中に「固有目的（eigenpurposes）」—状態特徴における繰り返し発生する観察可能な変化—を同定する。
各固有目的は、内因的部目標に変換され、学習された内因的報酬関数を持つ新たなオプションを形成する。
オプションは、ランダム探索からの状態遷移を分析することで反復的に発見され、スケーラビリティを確保するため線形関数近似が用いられる。
すべての発見されたオプションが有限マルコフ決定過程（MDP）において少なくとも1つの状態で終了することを保証し、進行性を確保する。
エージェントはこれらのオプションを用いて、状態空間をより広く探索し、かつてはまれまたは到達不能だった状態の頻度を向上させる。
関数近似と互換性があるため、アーケード学習環境（Arcade Learning Environment）のような大規模なドメインへの応用が可能である。

実験結果

リサーチクエスチョン

RQ1外在的報酬が完全に存在しない環境でも、エージェントは意味的で目的志向の行動を学習できるか？
RQ2報酬信号なしに、構造化されていない探索から内因的部目標を自動的に発見する方法は何か？
RQ3状態遷移から導かれる固有目的は、効果的で時間的に延長されたオプションを生み出せるか？
RQ4状態情報が制限される部分観測環境下でも、このアルゴリズムは効果を発揮するか？
RQ5ランダムな行動選択と比較して、発見されたオプションは探索効率を著しく向上できるか？

主な発見

完全観測設定では、6回の反復の間にエージェントの開始状態からの最大距離が29.3から298.9に増加し、到達可能性の向上が示された。
オプションの平均長は12.1から27.8に増加し、より複雑で目的志向の強い行動が形成されたことが示された。
部分観測設定でも、エージェントは「ビットを反転する」タイプのオプションを発見したが、状態の可視性が低下したため、1反復あたりのオプション数は減少した。
部分観測設定下でも、開始状態からの最大距離が352.4に達し、限られた情報の中でも高い耐性を示した。
発見されたオプション数は時間とともに増加した（完全観測では5.9から9.5に増加）ことから、新しい目的の継続的探索が行われたことが示された。
アルゴリズムは、有限MDPにおいてすべての発見オプションが終了することを保証しており、安定した学習ダイナミクスを確保する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。