QUICK REVIEW

[論文レビュー] Generalizing Skills with Semi-Supervised Reinforcement Learning

Chelsea Finn, Tianhe Yu|arXiv (Cornell University)|Dec 1, 2016

Reinforcement Learning in Robotics参考文献 34被引用数 34

ひとこと要約

本稿では、報酬が利用可能なラベル付き環境で学習された方策を、報酬信号が欠如するラベルなしの現実世界環境へ一般化できるようにする半教師付き強化学習（SSRL）を導入する。ラベル付きMDPからの事前経験を用いて逆強化学習（IRL）によりラベルなしMDPにおける報酬関数を推定することで、提案手法S3Gは方策の一般化を向上させ、連続的制御タスクにおける標準的RLおよび教師あり報酬回帰を上回る性能を示す。視覚入力を用いたタスクにおいても有効である。

ABSTRACT

Deep reinforcement learning (RL) can acquire complex behaviors from low-level inputs, such as images. However, real-world applications of such methods require generalizing to the vast variability of the real world. Deep networks are known to achieve remarkable generalization when provided with massive amounts of labeled data, but can we provide this breadth of experience to an RL agent, such as a robot? The robot might continuously learn as it explores the world around it, even while deployed. However, this learning requires access to a reward function, which is often hard to measure in real-world domains, where the reward could depend on, for example, unknown positions of objects or the emotional state of the user. Conversely, it is often quite practical to provide the agent with reward functions in a limited set of situations, such as when a human supervisor is present or in a controlled setting. Can we make use of this limited supervision, and still benefit from the breadth of experience an agent might collect on its own? In this paper, we formalize this problem as semisupervised reinforcement learning, where the reward function can only be evaluated in a set of "labeled" MDPs, and the agent must generalize its behavior to the wide range of states it might encounter in a set of "unlabeled" MDPs, by using experience from both settings. Our proposed method infers the task objective in the unlabeled MDPs through an algorithm that resembles inverse RL, using the agent's own prior experience in the labeled MDPs as a kind of demonstration of optimal behavior. We evaluate our method on challenging tasks that require control directly from images, and show that our approach can improve the generalization of a learned deep neural network policy by using experience for which no reward function is available. We also show that our method outperforms direct supervised learning of the reward.

研究の動機と目的

報酬関数が入手不可である現実世界環境における方策一般化の課題に取り組むこと。これは、報酬が利用可能なラベル付き設定での事前学習を前提としている。
継続的かつ現実世界の経験が蓄積されるが、報酬信号が希少または実用的でないロボット工学やその他の分野における生涯にわたる強化学習を可能にすること。
ラベル付き（報酬あり）とラベルなし（報酬なし）の環境の混合から学習する新しい学習パラダイムである半教師付き強化学習（SSRL）を形式化すること。
ラベルなし経験を、方策学習に加えて逆強化学習による報酬関数の形状づけに活用することで、方策一般化を向上させること。

提案手法

本手法は、報酬が既知の少数のラベル付きMDP（ラベル付きMDP）で学習された方策が、報酬なしの多数のラベルなしMDP（ラベルなしMDP）へ一般化できるような設定として、半教師付き強化学習（SSRL）を定式化する。
ラベルなしMDPにおける報酬関数を推定するために、逆強化学習（IRL）を用い、ラベル付きMDPにおけるエージェント自身の行動（示範的行動）を用いる。
推定された報酬関数を用いて、ラベルなし環境における方策を訓練することで、直接的な報酬監視なしに一般化を実現する。
ラベル付きMDPからの教師あり模倣と、ラベルなしMDPからの自己教師付き報酬推定を統合し、方策と報酬関数の共同最適化を実現する。
視覚ベースのタスクでは、視覚特徴をラベル付きMDPで強化学習により事前学習し、その後、ラベルなし設定における方策および報酬ネットワークの初期化に使用する。
エンドツーエンドのファインチューニングと固定視覚特徴の両方を用いて評価し、特徴の適応に頑健であることを示す。

実験結果

リサーチクエスチョン

RQ1少数のラベル付き環境で学習した方策を、報酬が利用不可な広範なラベルなし現実世界環境へ一般化できるか？
RQ2ラベル付きMDPからの事前経験を示範的行動として用い、逆強化学習によりラベルなしMDPにおける報酬関数を効果的に推定できるか？その結果、方策一般化が向上するか？
RQ3ラベルなし経験を、方策学習のほかに報酬関数の形状づけに活用することで、単に方策学習や教師あり回帰に用いる場合よりも一般化性能が向上するか？
RQ4完全な報酬監視が得られない状況下で、推定された報酬関数が、データ量や表現能力に制限がある条件下で真の報酬関数を上回る性能を示せるか？

主な発見

S3Gは、障害物回避、2リンクリーチャ、ハーフチーターを含むすべての評価タスクで、標準的RL（ラベル付きデータのみを用いる）を上回り、未観測な状態変化への一般化が向上していることを示している。
視覚入力を用いた2リンクリーチャタスクでは、S3Gが92%の成功率を達成し、教師あり報酬回帰の85%および標準的RLの69%を上回り、逆強化学習に基づく報酬形状づけの有効性を示している。
障害物回避タスクでは、S3Gが79%の成功率を達成し、標準的RLの65%および教師あり報酬回帰の29%を上回り、経験からの報酬推定が一般化を向上させることを示している。
特定の条件下では、2リンクリーチャタスクにおいてオラクル性能（80%）をS3Gが上回り、限られたデータ量およびモデル容量の下で、推定された報酬関数が真の報酬関数よりも適切に形状づけられている可能性を示唆している。
視覚特徴を固定した状態でもS3Gは良好な一般化性能を示しており、ラベル付き設定で強化学習により学習された表現が、ラベルなし環境へも頑健かつ転送可能であることを示している。
結果から、データおよび計算制約下では、事前経験からの逆強化学習による報酬形状づけが、直接的な教師あり回帰よりも効果的である可能性が示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。