[論文レビュー] A survey on intrinsic motivation in reinforcement learning
この調査は深層強化学習における内発的動機付け(IM)を分類・レビューし、知識獲得、スキル学習、状態表現を詳述し、探索、エンパワーメント、カリキュラムアプローチについて論じる。予測誤差、状態新規性、情報利得、エンパワーメントを使用する方法を比較し、IMを外発 rewardsと目標と統合する方法を概説する。
The reinforcement learning (RL) research area is very active, with an important number of new contributions; especially considering the emergent field of deep RL (DRL). However a number of scientific and technical challenges still need to be addressed, amongst which we can mention the ability to abstract actions or the difficulty to explore the environment which can be addressed by intrinsic motivation (IM). In this article, we provide a survey on the role of intrinsic motivation in DRL. We categorize the different kinds of intrinsic motivations and detail for each category, its advantages and limitations with respect to the mentioned challenges. Additionnally, we conduct an in-depth investigation of substantial current research questions, that are currently under study or not addressed at all in the considered research area of DRL. We choose to survey these research works, from the perspective of learning how to achieve tasks. We suggest then, that solving current challenges could lead to a larger developmental architecture which may tackle most of the tasks. We describe this developmental architecture on the basis of several building blocks composed of a RL algorithm and an IM module compressing information.
研究の動機と目的
- RLにおけるIMを分類し、知識獲得とスキル学習に焦点を当てた二つの方向性を提案する。
- IMを外部報酬と目標空間と統合して学習を導く方法をレビューする。
- 状態表現の改善、探索、エンパワーメントにおけるIMの役割を分析する。
- IM主導のRLにおける代替カリキュラムと目標生成手法を要約する。
提案手法
- DRLにおけるIMの分類を提示し、それをセクション6 Knowledge acquisitionおよびセクション7 Skill learningに対応づける。
- 核となるIM手法として予測誤差、状態新規性、情報利得、およびエンパワーメントを調査する。
- r = α r_int + β r_ext または V(s) = α V_int(s) + β V_ext(s) の形での統合アプローチを論じる。
- 白色ノイズに対処する探索機構を説明し、ICM、EMI、擬似カウント/密度ベースの手法、およびRNDを含む。
- エンパワーメントを相互情報量の目的として説明し、実際に計算または制限する方法を説明する。
- IMが状態表現学習とスキルの目標空間構築にどのように影響するかを概説する。
実験結果
リサーチクエスチョン
- RQ1深層強化学習において内発的動機付けをどのように系統的に分類できるか?
- RQ2主要なIMメカニズム(予測誤差、状態新規性、情報利得、エンパワーメント)は何で、探索タスクにおいてどのように比較されるか?
- RQ3IMを用いてスキル(オプション)の学習・転移や、監督なしで目標空間を構築するにはどうすればよいか?
- RQ4内発的報酬を外発的報酬と組み合わせる時期と方法、または表現とカリキュラムを形成するために使用する場合はいつか?
- RQ5IMの適用における実践的な課題(計算、スケーラビリティ、長期的な制御)は何で、それはどのように緩和できるか?
主な発見
- 予測誤差ベース、状態新規性ベース、情報利得ベースのIMアプローチはそれぞれ探索に対処するが、計算コストと環境への適合性は異なる。
- Intrinsic curiosity modules (ICM) および関連手法は、環境の制御可能な側面に焦点を当てることで白色ノイズの問題を回避するのに役立つ。
- Random network distillation (RND) および密度/擬似カウント法は Montezuma’s revenge のような報酬が希薄なタスクの探索を改善するが、スケーリングと一般化は依然懸念される。
- エンパワーメントベースのIMは制御可能な行動の学習を促進し、マルチエージェント訓練の安定化や生涯スキルの多様化を促すが、計算負荷が高い。
- 状態表現学習はIMによって相互作用の分布を形成することで恩恵を受け、分離された表現とより効果的な一般化を可能にする。
- 内発的報酬を用いたスキル学習は、タスク非依存のスキル(オプション)の発見と再利用を可能にし、状態表現からの目標空間構築は階層的RLとカリキュラム学習を促進できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。