QUICK REVIEW

[論文レビュー] Contrastive Learning as Goal-Conditioned Reinforcement Learning

Benjamin Eysenbach, Tianjun Zhang|arXiv (Cornell University)|Jun 15, 2022

Domain Adaptation and Few-Shot Learning被引用数 24

ひとこと要約

この論文は対照学習を目標条件付き強化学習アルゴリズムとして再構成し、内積がQ関数に対応する状態-行動と未来状態の表現を学習し、画像ベースおよびオフライン設定を含む目標条件付きタスクで強力な性能を示す。

ABSTRACT

In reinforcement learning (RL), it is easier to solve a task if given a good representation. While deep RL should automatically acquire such good representations, prior work often finds that learning representations in an end-to-end fashion is unstable and instead equip RL algorithms with additional representation learning parts (e.g., auxiliary losses, data augmentation). How can we design RL algorithms that directly acquire good representations? In this paper, instead of adding representation learning parts to an existing RL algorithm, we show (contrastive) representation learning methods can be cast as RL algorithms in their own right. To do this, we build upon prior work and apply contrastive representation learning to action-labeled trajectories, in such a way that the (inner product of) learned representations exactly corresponds to a goal-conditioned value function. We use this idea to reinterpret a prior RL method as performing contrastive learning, and then use the idea to propose a much simpler method that achieves similar performance. Across a range of goal-conditioned RL tasks, we demonstrate that contrastive RL methods achieve higher success rates than prior non-contrastive methods, including in the offline RL setting. We also show that contrastive RL outperforms prior methods on image-based tasks, without using data augmentation or auxiliary objectives.

研究の動機と目的

直接良い表現を獲得するアルゴリズムを設計し、補助的な知覚損失やデータ増強なしにRLで表現学習を動機づける。
行動ラベル付き軌跡と未来状態を入力ペアとして扱い、価値関数のような目的を学習する対照学習フレームワークを提案する。
学習された表現の内積が特定の報酬形式の下で目標条件付き価値関数に対応することを示す。
学習的に対照学習RLが、オフライン設定を含む複数の目標条件付きタスクで、従来の非対照法より高い成功率を達成することを実証的に示す。

提案手法

報酬 r_g(s,a) を次のステップで目標を達成する確率として定義し、報酬を割引状態占有測度に結び付ける。
対照学習を用いてクリティック f(u,v) を学習する。u=(s,a)、v=future_state。陽性サンプルは割引占有測度から、ネガティブはランダムな状態-行動ペアから取る。
クリティックを f(s,a,s_g)=phi(s,a)^T psi(s_g) の内積としてパラメータ化する。
InfoNCE型の目的関数で最適化し、次の目標のような未来と高い類似性を促進し、無関係な未来とは低い類似性を促す。
最適なクリティックが目標条件付きQ関数に比例することを導出（定数を除く）、別個のRL要素なしで方策改善を可能にする。
対照学習を用いたクリティックの適合、目標条件付き方策の更新、データ収集を交互に行うアルゴリズム（Contrastive RL, NCE）を提示する。

実験結果

リサーチクエスチョン

RQ1対照学習表現学習を用いてTD学習や追加の表現目的なしに直接目標条件付き価値関数を学習できるか？
RQ2得られたContrastive RL (NCE) フレームワークは、状態ベースおよび画像ベースのタスク、オフラインRLを含む、従来の非対照的な目標条件付きRL手法より優れているか？
RQ3C-learningは対照学習RLの特別なケースとして解釈でき、対照学習RLのより広いファミリが性能向上をもたらすか？
RQ4対照学習RLは部分観測と動くカメラを効果的に扱えるか、AntMazeのようなオフラインRLベンチマークでどうか？

主な発見

対照学習RL法は、難易度の高い画像ベースタスクを含む幅広い目標条件付きタスクで、従来の非対照法より成功率が高い。
データ増強や補助表現目的に依存するベースラインよりも、そうした工夫なしでも優れている。
C-learningは対照学習RLの特別なケースであり、CPC, NCE+C-learning などのより広い対照学習RLファミリは性能向上をもたらす。
対照学習RLは部分観測と動くカメラへの頑健性を示し、現実的なロボティクス設定への適用性を示す。
オフラインRLベンチマークでは、対照学習RLがベンチマーク目標到達タスクで従来手法より優れることがあり、時にはかなり優れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。