QUICK REVIEW

[論文レビュー] Video Prediction Models as Rewards for Reinforcement Learning

Alejandro Escontrela, Ademi Adeniji|arXiv (Cornell University)|May 23, 2023

Reinforcement Learning in Robotics被引用数 11

ひとこと要約

VIPERは、事前学習済みの動画予測モデルの対数尤度を強化学習の報酬信号として利用し、複数のベンチマークにわたるピクセルからの専門家レベルの制御を実現し、タスク報酬なしでエンボディメントを超えた一般化を可能にする。

ABSTRACT

Specifying reward signals that allow agents to learn complex behaviors is a long-standing challenge in reinforcement learning. A promising approach is to extract preferences for behaviors from unlabeled videos, which are widely available on the internet. We present Video Prediction Rewards (VIPER), an algorithm that leverages pretrained video prediction models as action-free reward signals for reinforcement learning. Specifically, we first train an autoregressive transformer on expert videos and then use the video prediction likelihoods as reward signals for a reinforcement learning agent. VIPER enables expert-level control without programmatic task rewards across a wide range of DMC, Atari, and RLBench tasks. Moreover, generalization of the video prediction model allows us to derive rewards for an out-of-distribution environment where no expert data is available, enabling cross-embodiment generalization for tabletop manipulation. We see our work as starting point for scalable reward specification from unlabeled videos that will benefit from the rapid advances in generative modeling. Source code and datasets are available on the project website: https://escontrela.me/viper

研究の動機と目的

手作業の報酬設計を必要とせず、RLのスケーラブルな報酬仕様を動機づける。
ラベルなしの専門家動画を活用し、動画モデルの尤度を報酬信号として定義する。
動画モデルベースの報酬が、多様なベンチマークで専門家レベルの制御を可能にすることを示す。

提案手法

VQ-GAN のエンコーダ/デコーダと離散コード上のトランスフォーマーを用いて、専門家動画上で自己回帰型の動画予測モデルを訓練する（式3）。
報酬を過去フレームに基づく次フレームの対数尤度として定義する（式4、式7の文脈長kで近似）。
KL発散を用いてエージェントの軌道分布を動画モデルの分布に一致させて学習を改善する（式5）と、探索項を追加する（式6）。
高確率領域内で多様な軌道を促進するためエントロピー項を組み込む（式6）。
任意のRLアルゴリズム（例: DrQ、DreamerV3）でVIPER報酬を使用し、タスク間でAMPベースラインと比較する。
データ拡張と文脈長を用いて頑健性を高める実験。

Figure 1 : VIPER uses the next-token likelihoods of a frozen video prediction model as a general reward function for various tasks.

実験結果

リサーチクエスチョン

RQ1VIPERは、グラウンドトゥルース報酬なしにピクセルから多様な制御タスクを解くのに十分な学習信号を提供できるか？
RQ2多様なタスクで訓練された動画モデルは、新しいタスクや分布外シナリオに対して有用な報酬を生み出すか？
RQ3専門家データが利用できない新規環境や新しいエンボディメントにVIPERは一般化できるか？
RQ4性能に最も影響を与える実装の選択肢（動画モデル、文脈長、探索重み）は何か？

主な発見

VIPERは動画予測報酬のみで、15のDMCタスク、7つのAtariゲーム、6つのRLBenchタスクでほぼ専門家レベルの性能を達成。
VIPERは対立的ベースライン（AMP）を上回り、卓上操作のエンボディメント間の強い一般化を示す。
動画モデルの尤度報酬は真の報酬と相関し、標準アルゴリズムでの効果的な RL を可能にする。
より長い文脈と適切な探索重み付けが性能を向上させ、MaskGITはVideoGPTベースの尤度には劣る。
訓練時に見られなかった分布外のアーム/タスクへ一般化し、クロスドメインの報酬仕様を可能にする。
Atariでスコアボードをマスキングすると報酬信号のノイズを減らし、ポリシーの安定性を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。