QUICK REVIEW

[論文レビュー] Trial without Error: Towards Safe Reinforcement Learning via Human Intervention

William S. Saunders, Girish Sastry|arXiv (Cornell University)|Jul 17, 2017

Reinforcement Learning in Robotics参考文献 17被引用数 110

ひとこと要約

本論文は、訓練中の崩壊を防ぐために、人間のブロッカーが安全な行動を模倣し、ブロッカーを訓練して介入を引き継ぐことで、ヒューマン介入型強化学習（HIRL）を形式化し、Atariゲームでのスケーラビリティを評価する。結果はPongおよびSpace Invadersで崩壊ゼロだが、Road Runnerでは部分的な成功であり、スケーリングの課題が議論されている。

ABSTRACT

AI systems are increasingly applied to complex tasks that involve interaction with humans. During training, such systems are potentially dangerous, as they haven't yet learned to avoid actions that could cause serious harm. How can an AI system explore and learn without making a single mistake that harms humans or otherwise causes serious damage? For model-free reinforcement learning, having a human "in the loop" and ready to intervene is currently the only way to prevent all catastrophes. We formalize human intervention for RL and show how to reduce the human labor required by training a supervised learner to imitate the human's intervention decisions. We evaluate this scheme on Atari games, with a Deep RL agent being overseen by a human for four hours. When the class of catastrophes is simple, we are able to prevent all catastrophes without affecting the agent's learning (whereas an RL baseline fails due to catastrophic forgetting). However, this scheme is less successful when catastrophes are more complex: it reduces but does not eliminate catastrophes and the supervised learner fails on adversarial examples found by the agent. Extrapolating to more challenging environments, we show that our implementation would not scale (due to the infeasible amount of human labor required). We outline extensions of the scheme that are necessary if we are to train model-free agents without a single catastrophe.

研究の動機と目的

モデルフリーRLに対する人間の監視を伴う安全性フレームワークを定義し、訓練中の崩壊を防ぐ。
ヒューマン・イン・ザ・ループ方式として、ブロッカーが人間のブロック決定を模倣して unsafe 行動を置換する仕組みを提案する。
HIRLをAtariゲームで評価し、エージェント間での安全性パフォーマンスと学習効率を検討する。
ゼロ崩壊の安全性を保ちながら人手労働を減らすためのスケーラビリティの課題を強調し、対処方策を概説する。

提案手法

MDPとしてRLをモデル化し、人間が崩壊的行動をブロックし、安全な行動に置換する人間の監視フェーズを導入する。
人間がブロックしたかどうかの状態-行動データとラベルを収集し、ブロック決定を模倣するブロッカー分類器を訓練する。
ブロッカーが Hold-out 性能に達したら人間を退役させ、ブロッカーに監督を委ねる；ブロッカーは行動置換も担当する。
raw Atari フレームを用いて訓練されたCNNベースのブロッカーを使用し、崩壊に対する偽陰性率を低くする。
崩壊を罰する報酬設計のベースラインとHIRLを比較し、ブロック行動を取らず崩壊を抑える方法を評価する。
分布シフトと敵対的例に対するロバスト性を分析し、データ効率と人手コストを議論する。

実験結果

リサーチクエスチョン

RQ1単純な崩壊クラスと複雑な崩壊クラスを横断して、 RL 訓練中のすべての崩壊行為を人間の介入で防げるか？
RQ2ブロッカーが人間の介入をどの程度模倣し、異なるRLエージェントや環境にわたってスケールできるか？
RQ3より複雑なタスクへ適用する際の人間の時間コストとスケーラビリティの限界は？
RQ4安全なRLでゼロ崩壠学習を維持しつつ人手労力を削減する拡張は何が必要か？

主な発見

HIRLはPongとSpace Invadersで崩壊ゼロを達成する一方、Road Runnerでは崩壊を削減したが完全には抑えきれず（およそ50倍の削減）、スケーリングの課題を示した。
ブロッカーはエージェントやアーキテクチャ間で転移し、Pongで学習を妨げることなく崩壊をブロックする。
崩壊を大きく罰するリワード設計は、崩壊忘却と敵対的利用のためすべてを防げず失敗した。
現在のHIRL設定は長時間・より複雑なタスクには人手コストが高く非現実的になると推定される。
ブロッカーのロバストネスは敵対的エージェントによって損なわれうるため、データ効率とアクティブ・ラーニング戦略が必要。
Pongでは崩壊を局所的には回避できるが、局所ではなく非局所的崩壊はブロックだけの限界を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。