QUICK REVIEW

[論文レビュー] Sample Complexity of Multi-task Reinforcement Learning

Emma Brunskill, Lihong Li|arXiv (Cornell University)|Sep 26, 2013

Reinforcement Learning in Robotics参考文献 17被引用数 46

ひとこと要約

本稿では、有限MDPの未知の分布から抽出されたタスクの系列において、知識をタスク間で転送することで、各タスクのサンプル複雑性を低減するマルチタスク強化学習アルゴリズムを提案する。弱い仮定の下で、転送がサンプル効率を著しく向上させることを証明するとともに、ネガティブな転送（負の影響）を回避することを保証しており、最悪ケースの性能はシングルタスク学習と同等である。

ABSTRACT

Transferring knowledge across a sequence of reinforcement-learning tasks is challenging, and has a number of important applications. Though there is encouraging empirical evidence that transfer can improve performance in subsequent reinforcement-learning tasks, there has been very little theoretical analysis. In this paper, we introduce a new multi-task algorithm for a sequence of reinforcement-learning tasks when each task is sampled independently from (an unknown) distribution over a finite set of Markov decision processes whose parameters are initially unknown. For this setting, we prove under certain assumptions that the per-task sample complexity of exploration is reduced significantly due to transfer compared to standard single-task algorithms. Our multi-task algorithm also has the desired characteristic that it is guaranteed not to exhibit negative transfer: in the worst case its per-task sample complexity is comparable to the corresponding single-task algorithm. 1

研究の動機と目的

タスクが有限MDPの未知の分布から抽出される状況におけるマルチタスク強化学習のサンプル複雑性を理論的に分析すること。
タスク間での知識転送を活用してサンプル効率を向上させるマルチタスクアルゴリズムを開発すること。
アルゴリズムがネガティブな転送を回避することを保証し、最悪ケースにおいてもシングルタスク学習の性能を維持すること。
転送による各タスクのサンプル複雑性の低減について理論的保証を確立すること。

提案手法

アルゴリズムは、有限なMDPの集合からの未知の分布に従ってサンプリングされる独立なタスクの系列を処理する。
メタラーニングのアプローチを用いて、タスク間で経験を共有し、ポリシーの更新を統一することで一般化性能を向上させる。
MDPのパラメータは初期状態では未知であるが、有限な集合に属すると仮定しており、構造的な転送を可能にする。
共有された知識に基づいて適応する探索戦略を採用し、重複する探索を低減する。
理論的分析では、集中不等式を用いて各タスクのサンプル複雑性を上限付け、転送に起因する分散低減を活用する。
転送に失敗した場合でも、シングルタスク学習の性能バインディングを維持するようにアルゴリズムを設計している。

実験結果

リサーチクエスチョン

RQ1複数の強化学習タスク間での知識転送は、探索の各タスクのサンプル複雑性を低減できるか？
RQ2どのような条件下で、転送がサンプル効率の向上を保証できるか？
RQ3マルチタスクRLアルゴリズムは、最悪ケースにおいてもネガティブな転送を回避できる保証があるか？
RQ4同じ仮定のもとで、提案されたアルゴリズムのサンプル複雑性は、シングルタスクベースラインと比べてどのように異なるか？

主な発見

提案されたマルチタスクアルゴリズムは、知識転送のおかげで、各タスクのサンプル複雑性が著しく低減される。
アルゴリズムはネガティブな転送を保証しており、最悪ケースの性能がシングルタスク学習と同等であることを確認している。
タスクがパラメータが未知の有限なMDPの分布から抽出されるという仮定の下で、サンプル複雑性が低減される。
理論的分析により、転送が探索の効率を向上させるとともに、悪質な状況下でも頑健性を維持できることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。