[論文レビュー] Safe Imitation Learning via Fast Bayesian Reward Inference from Preferences
本論文はBayesian Reward Extrapolation (Bayesian REX) を提案します。これは実演された軌道嗜好を用いて報酬関数を効率的に推定し、高次元タスク(Atari のような)に対して模倣学習の高信頼度なポリシー評価を提供します。真の報酬へアクセスせずとも、迅速な後部抽出サンプリングと競争力の模倣性能を実現します。
Bayesian reward learning from demonstrations enables rigorous safety and uncertainty analysis when performing imitation learning. However, Bayesian reward learning methods are typically computationally intractable for complex control problems. We propose Bayesian Reward Extrapolation (Bayesian REX), a highly efficient Bayesian reward learning algorithm that scales to high-dimensional imitation learning problems by pre-training a low-dimensional feature encoding via self-supervised tasks and then leveraging preferences over demonstrations to perform fast Bayesian inference. Bayesian REX can learn to play Atari games from demonstrations, without access to the game score and can generate 100,000 samples from the posterior over reward functions in only 5 minutes on a personal laptop. Bayesian REX also results in imitation learning performance that is competitive with or better than state-of-the-art methods that only learn point estimates of the reward function. Finally, Bayesian REX enables efficient high-confidence policy evaluation without having access to samples of the reward function. These high-confidence performance bounds can be used to rank the performance and risk of a variety of evaluation policies and provide a way to detect reward hacking behaviors.
研究の動機と目的
- デモンストレーションから学習した報酬の不確実性を可能にすることで、安全な模倣学習を動機づける。
- 軌道嗜好を活用して内ループのMDP解法を回避する、スケーラブルなベイズ報酬推定法を開発する。
- 報酬サンプルやMDPモデルへアクセスせずに模倣学習で高信頼度のポリシー評価を実現する。
- 高次元の視覚領域(Atari)への適用性を示し、点推定法と比較して競争力のある性能を示す。
提案手法
- デモンストレーション嗜好からの報酬推定を、対比較ランキング尤度(Bradley–Terry モデル)を用いて定式化する。
- φ(s) を R(s)=w^T φ(s) と表現し、φ(s) は低次元状態埋め込みの自己教師付き事前学習で学習する。
- 自己教師付きタスク(逆動力学、正動力学、時間的距離、変分オートエンコーダ)と T-REX 排他学習を用いて φ(s) を事前学習し、φ を固定して最後の層の重み w のみ学習する。
- ペアワイズランキング尤度で定義された P(D,𝒫|R_θ) を用いて、MDP 全解法を回避し、事後分布 P(w|D,𝒫) から MCMC でサンプルを得る。
- 軌道埋め込み Φ_τ をキャッシュして、w^TΦ_τ の形で P(D,𝒫|R_θ) を効率的に計算し、後方サンプリングをスケーラブルに行えるようにする(例:ノートパソコン上で約5分で 100,000 サンプル)。
- 線形報酬構造を活用して、事後のポリシー値を単一の行列ベクトル積 WΦ_{eval} で計算し、報酬不確実性の下でのポリシー性能に対する高信頼度の下界(VaR)を得る。
実験結果
リサーチクエスチョン
- RQ1高次元の視覚制御でデモンストレーション嗜好はベイズ報酬推定を高速化できるか。
- RQ2MDPソルバーや報酬サンプルなしで、嗜好からのベイズ報酬推定は有用な高信頼度のポリシー評価の下界を提供できるか。
- RQ3Atariスケールのタスクで、Bayesian REX は既存のIRL法やランクベース手法とどう比較されるか。
- RQ4自己教師付き事前学習と特徴表現は、スケーラブルなベイズ模倣学習でどんな役割を果たすか。
主な発見
- Bayesian REX はノートパソコン上で Atari タスクに対して約10万の事後サンプルを5分程度で生成できる。
- Bayesian REX を用いた模倣学習は、報酬の点推定のみを出力する最先端手法と比較して競争力がある、またはそれを上回る。
- Bayesian REX は報酬サンプルなしで不確実性の下でのポリシー評価の効率的な高信頼度評価を可能にし、報酬不確実性下でのポリシー値の下限を提供する。
- Atari のゲームで、嗜好を用いた Bayesian REX は複数のゲームでデモンストレーターを上回る性能を示す。
- 本手法は不確実性ベースの性能下界と評価ポリシーのリスクランキングを提供することで、報酬改ざんの検出にも貢献できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。