QUICK REVIEW

[論文レビュー] Learning Parameterized Skills

Bruno da Silva, George Konidaris|arXiv (Cornell University)|Jun 27, 2012

Reinforcement Learning in Robotics参考文献 15被引用数 71

ひとこと要約

本論文では、関連するタスクの分布におけるポリシー・パラメータの多様体をモデル化することで、パrameterizedスキルを学習する手法を提案する。タスクのインスタンスをサンプリングし、その背後にある低次元多様体構造を推定し、多様体チャートごとに非線形回帰を適用することで、タスク・パラメータから最適ポリシー・パラメータを予測する汎用的なスキルを構築する。このアプローチにより、最小限のトレーニングデータでシミュレーション上での的への的投げを高精度に実現する。

ABSTRACT

We introduce a method for constructing skills capable of solving tasks drawn from a distribution of parameterized reinforcement learning problems. The method draws example tasks from a distribution of interest and uses the corresponding learned policies to estimate the topology of the lower-dimensional piecewise-smooth manifold on which the skill policies lie. This manifold models how policy parameters change as task parameters vary. The method identifies the number of charts that compose the manifold and then applies non-linear regression in each chart to construct a parameterized skill by predicting policy parameters from task parameters. We evaluate our method on an underactuated simulated robotic arm tasked with learning to accurately throw darts at a parameterized target location.

研究の動機と目的

関連する強化学習タスクの分布に対して再利用可能で汎用的なスキルを学習する課題に対処する。
すべての可能なタスク変種に対して個別にポリシーをトレーニングすることは現実的ではないという課題を克服する。
低次元で局所的に滑らかな多様体を用いて、ポリシー・パラメータがタスク・パラメータに滑らかに変化することをモデル化する。
ポリシー空間のトポロジーを学習することで、未観測のタスク・パラメータに対しても一般化可能なパラメータ化されたスキルを構築する。
再トレーニングから再び始める必要なく、連続的なタスク設定の範囲にわたり、効率的なスキルの転送と適応を可能にする。

提案手法

分布 P(τ) からタスクインスタンスの集合をサンプリングし、それぞれに最適ポリシー θτ が対応する。
学習済みポリシーを含む、ポリシー・パラメータ空間 (R^N) に埋め込まれた低次元で局所的に滑らかな多様体を推定する。
多様体を表現するために必要なチャート（局所座標パッチ）の数を特定し、質的に異なる戦略を捉える。
各チャート内で非線形回帰を適用し、タスク・パラメータ τ からポリシー・パラメータ θ = Θ(τ) へのマッピングを学習する。
得られたパラメータ化されたスキル Θ(τ) を用いて、新しい未観測のタスク・パラメータに対応するポリシーを選択する。
タスク・パラメータに伴うポリシーの滑らかな変化を活用し、特に高次元制御タスクにおいてトレーニングインスタンスを越えて一般化する。

実験結果

リサーチクエスチョン

RQ1どのようにして、関連する強化学習タスクの分布にわたって一般化するパラメータ化されたスキルを学習できるか？
RQ2関連するタスクの族に対して最適ポリシーの空間が有する内在的な幾何的構造は何か？
RQ3パラメータ化されたポリシー多様体を表現するために必要な、明確に異なる戦略（チャート）の数を自動で特定できるか？
RQ4限られたトレーニングデータを用いて、タスク・パラメータとポリシー・パラメータの非線形関係を効果的にモデル化できるか？
RQ5この手法は、トレーニング中に観測されなかった未見のタスク・パラメータに対し、どの程度一般化できるか？

主な発見

本手法は、パラメータ化されたスキルを効果的に学習し、シミュレーテッド不十分駆動ロボットアーム環境において、連続的なタスク・パラメータの範囲にわたって一般化を実現した。
アプローチは、正しい数のチャート（局所領域）を同定しており、質的に異なる戦略を検出できることを示している。
各チャート内での非線形回帰により、未観測の組み合わせに対しても、タスク・パラメータからポリシー・パラメータを高精度に予測できるようになった。
パラメータ化されたスキルは、さまざまなターゲット位置における的投げタスクで高い精度を達成し、トレーニングインスタンスを越えた効果的な一般化を示した。
本手法により、タスクからポリシー・パラメータへのコンactで一般化可能なマッピングを学習することで、膨大な再トレーニングの必要性が削減された。
フレームワークは、オフポリシー学習を支援し、局所的ポリシー探索手法からのポリシー更新を、多様体上の追加のトレーニングサンプルとして再利用できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。