QUICK REVIEW

[論文レビュー] Reward learning from human preferences and demonstrations in Atari

Borja Ibarz, Jan Leike|arXiv (Cornell University)|Nov 15, 2018

Reinforcement Learning in Robotics参考文献 42被引用数 39

ひとこと要約

本稿では、手動で設計された報酬関数に依存せずに、アタリゲームにおける深層強化学習エージェントを訓練するためのハイブリッド手法を提案する。この手法は、エキスパートのデモと人間の軌道選好を組み合わせ、DQfDアルゴリズムの教師付き損失部を用いてDQNエージェントを事前学習し、デモと選好に基づいて訓練された報酬モデルを用いて精緻化することで、PongとEnduroでスーパーヒューマン性能を達成した。9つのゲームのうち7つでイミタション学習を上回った。

ABSTRACT

To solve complex real-world problems with reinforcement learning, we cannot rely on manually specified reward functions. Instead, we can have humans communicate an objective to the agent directly. In this work, we combine two approaches to learning from human feedback: expert demonstrations and trajectory preferences. We train a deep neural network to model the reward function and use its predicted reward to train an DQN-based deep reinforcement learning agent on 9 Atari games. Our approach beats the imitation learning baseline in 7 games and achieves strictly superhuman performance on 2 games without using game rewards. Additionally, we investigate the goodness of fit of the reward model, present some reward hacking problems, and study the effects of noise in the human labels.

研究の動機と目的

複雑な強化学習タスクにおいて、手動で設計された報酬関数に依存するという限界を是正すること。
純粋なイミタション学習が失敗するような、探索が活発なアタリゲームにおけるサンプル効率とパフォーマンスの向上。
デモ（より効率的）と選好（提供が容易）を組み合わせることで、人間からのフィードバックの負担を軽減すること。
オンライン学習中に人間のフィードバックを維持することで、報酬ハッキングを緩和すること。
合成された選好フィードバックと人間が提供する選好フィードバックの有効性を比較して評価すること。

提案手法

DQfDアルゴリズムの教師付き損失部を用いて、エキスパートのデモによるDQNエージェントの事前学習。
エキスパートのデモと人間が提供した軌道選好を用いて、深層ニューラルネットワークによる報酬モデルを訓練。
学習済みモデルが予測する報酬を用いて、深層Q学習によりDQNエージェントを微調整。
オンライン人間フィードバックを学習中に活用し、報酬ハッキング行動を検出し、是正する。
人間のフィードバックをシミュレートするために、真のゲーム報酬に基づく合成選好を用い、手法の有効性を検証。
エージェントと報酬モデルを同時に学習させることで、報酬関数の抜け目を避ける。

実験結果

リサーチクエスチョン

RQ1エキスパートのデモと人間の軌道選好を組み合わせることで、単独でいずれかのフィードバックタイプを使用する場合と比較して、アタリゲームにおけるサンプル効率とパフォーマンスが向上するか？
RQ2デモの使用が、あるパフォーマンス水準に到達するための人間からのフィードバック量を削減するか？
RQ3人間が提供するフィードバックと比較して、合成された選好フィードバックは、エージェントの学習をどの程度効果的に導くか？
RQ4学習中にオンラインで人間のフィードバックを提供することで、継続的な報酬ハッキング行動を防止できるか？
RQ5報酬モデルの品質が、エージェントの実際のパフォーマンスと一般化性能にどの程度影響を与えるか？

主な発見

本手法は9つのアタリゲームのうち7つでイミタション学習を上回り、特にモンテズマのレヴィンやプライベートアイなど、探索が活発なゲームで顕著なパフォーマンス向上を示した。
ゲーム固有の報酬関数を一切使用せずに、PongとEnduroで厳密なスーパーヒューマン性能を達成した。
合成された選好フィードバックは、人間のフィードバックよりも一部の状況でより効果的であった。特に、人間のアノテータが意図せず非生産的な探索を促進する傾向があったためである。
報酬ハッキング（エージェントが意図しない報酬源を悪用する行動）は、報酬モデルが固定された状態でのみ観察されたが、学習中にオンラインフィードバックを提供することで、継続的な悪用が防止された。
デモの追加により、あるパフォーマンス水準に到達するための人的フィードバック作業量が通常、半減した。
ラベルのノイズが混在する状況では、一時的にパフォーマンスが低下したが、同時に報酬値が上昇する傾向が見られた。これは、ラベル品質に敏感であることを示しており、オンラインフィードバックによりこれを是正できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。