QUICK REVIEW

[論文レビュー] Unsupervised Control Through Non-Parametric Discriminative Rewards

David Warde-Farley, Tom Van de Wiele|arXiv (Cornell University)|Nov 28, 2018

Reinforcement Learning in Robotics被引用数 49

ひとこと要約

DISCERN は、環境の制御可能な側面の類似性を測る識別的で非パラメトリックな報酬関数と、目標条件付きポリシーを共同訓練することで、視覚情報で指定された目標に無 supervision で到達することを学習する。

ABSTRACT

Learning to control an environment without hand-crafted rewards or expert data remains challenging and is at the frontier of reinforcement learning research. We present an unsupervised learning algorithm to train agents to achieve perceptually-specified goals using only a stream of observations and actions. Our agent simultaneously learns a goal-conditioned policy and a goal achievement reward function that measures how similar a state is to the goal state. This dual optimization leads to a co-operative game, giving rise to a learned reward function that reflects similarity in controllable aspects of the environment instead of distance in the space of observations. We demonstrate the efficacy of our agent to learn, in an unsupervised manner, to reach a diverse set of goals on three domains -- Atari, the DeepMind Control Suite and DeepMind Lab.

研究の動機と目的

手作り報酬や専門家データなしで環境の熟達を学習する動機づけ。
到達可能な任意のゴール状態に到達できる目標条件付きポリシーの開発。
生データの視覚的類似性ではなく、制御可能な類似性を捉えるゴール達成報酬関数の学習。
ポリシーと報酬を共同学習する非パラメトリックで識別的なフレームワークの提案。
Atari、DM Control Suite、DM Labを含む多様な視覚ドメインで教師なしのゴール到達を実証。

提案手法

DISCERN を導入する。ゴールと達成状態の間の相互情報量を最大化する識別的埋め込み報酬ネットワーク。
変分分布 q_phi(s_g|s_T) で相互情報量の下界を取り、ゴールを過去の観測の有限で進化するバッファ G に制限する。
識別的埋め込みから導出された報酬 r(s;s_g) を用いて、経験再生を用いる Q 学習で、目標条件付きポリシー pi_theta(a|s;s_g) を訓練する。
対数 q_phi(s_g|s_T) に基づく非線形報酬を [0,1] に変換、具体的には max(0, ell_g) を用い、ell_g は学習済み埋め込み空間でのコサイン類似度。
ゴールを非パラメトリックなバッファで表現し、トレーニングが進むにつれてカリキュラムを可能にする（ drifting goal space）。
ゴールを再ラベル付けする hindsight experience replay を取り入れ、埋め込み学習を安定化させる。

実験結果

リサーチクエスチョン

RQ1教師なしエージェントは外部報酬や専門家デモなしで視覚的に指定されたゴールを達成することを学べるか。
RQ2目標条件付きポリシーと識別的・非パラメトリックなゴール報酬関数を共同学習することは、生の視覚的類似性ではなく環境の制御可能な側面を回復するか。
RQ3DISCERN はピクセル観測を用いた Atari、DM Control Suite、DM Lab の多様なドメインでゴール到達をどの程度達成できるか。
RQ4非パラメトリックなゴール提案と埋め込みベースの報酬は、ベースラインと比べてカリキュラムと性能にどのような影響を与えるか。
RQ5トレーニング安定性と性能におけるゴール再ラベリング（HER）の役割と影響はどの程度か。

主な発見

DISCERN は Atari、DM Control Suite、DM Lab で外部報酬なしに視覚的に指定された多様なゴールを達成することを学習する。
識別的埋め込み報酬は制御可能な類似性を捉え、干渉要因や制御不能な物体を無視したポリシー学習を可能にする。
次元ごとの分析は、難易度の高いタスクでも主要な制御可能状態次元としばしば一致し、ピクセルや GAN ベースの報酬に依存するベースラインよりも優れている。
埋め込み空間のコサイン類似度を用いた非線形でクリップされた報酬は、生の対数確率報酬よりも安定性と性能を向上させる。
非パラメトリックなゴールバッファは自然に進化するカリキュラムを提供し、エージェントが探索を進めるにつれて制御可能な要因の学習を促進する。
hindsight experience replay は埋み込みとポリシー学習をさらに安定化させ、時間的一貫性のある表現を助ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。