QUICK REVIEW

[論文レビュー] Robust Intervention Learning from Emergency Stop Interventions

Ethan Pronovost, Khimya Khetarpal|arXiv (Cornell University)|Feb 3, 2026

Reinforcement Learning in Robotics被引用数 0

ひとこと要約

この論文は Robust Intervention Learning (RIL) と Residual Intervention Fine-Tuning (RIFT) を導入し、欠陥のある緊急停止信号と事前ポリシーを残差 Q 学習を通じて組み合わせることで方策を改善する手法を提示する。理論と実験を通じて、介入の情報性と事前品質の変化に対して原理的な方策改善が得られる条件を示す。

ABSTRACT

Human interventions are a common source of data in autonomous systems during testing. These interventions provide an important signal about where the current policy needs improvement, but are often noisy and incomplete. We define Robust Intervention Learning (RIL) as the problem of learning from intervention data while remaining robust to the quality and informativeness of the intervention signal. In the best case, interventions are precise and avoiding them is sufficient to solve the task, but in many realistic settings avoiding interventions is necessary but not sufficient for achieving good performance. We study robust intervention learning in the context of emergency stop interventions and propose Residual Intervention Fine-Tuning (RIFT), a residual fine-tuning algorithm that treats intervention feedback as an incomplete learning signal and explicitly combines it with a prior policy. By framing intervention learning as a fine-tuning problem, our approach leverages structure encoded in the prior policy to resolve ambiguity when intervention signals under-specify the task. We provide theoretical analysis characterizing conditions under which this formulation yields principled policy improvement, and identify regimes where intervention learning is expected to fail. Our experiments reveal that residual fine-tuning enables robust and consistent policy improvement across a range of intervention strategies and prior policy qualities, and highlight robust intervention learning as a promising direction for future work.

研究の動機と目的

imperfect deployment interventions からの学習を動機づける。介入を避けるだけではタスク解決にならない。
介入フィードバックと事前ポリシーを組み合わせる残差微調整アプローチを提案する。
介入に導かれた微調整が方策性能を改善する理論条件を提供する。
RIFT の頑健性を異なる介入戦略と事前ポリシー品質の下で示す。

提案手法

頑健介入学習を、介入フィードバックと事前ポリシーを組み合わせる必要がある不完全な介入戦略から学習する枠組みとして定式化する。
Residual Intervention Fine-Tuning (RIFT) を導入し、介入のネガティブ報酬を組み込みつつ事前ポリシーへ正則化する残差 Q 学習目的を用いる。
緊急停止介入を確率 φ のベルヌーイ信号としてモデル化し、残差ベルマン方程式を導出して方策更新を指針づける。
RIFT がエントロピー係数が介入ウェイトと一致する場合、残差 Q 学習に相当する微調整目的に対応することを示す。
介入戦略と visitation および advantage の差を介して方策改善へ結びつく理論的分析を提供する。
Gym 環境で模擬エキスパートとさまざまな事前を用いて頑健性とハイパーパラメータ ω の指針を評価する。

実験結果

リサーチクエスチョン

RQ1 緊急停止介入と事前ポリシーの組み合わせは、介入を回避するだけでなく方策を改善する条件は何か。
RQ2 不完全 supervision に内在するタスクの曖昧さを解決するために、介入フィードバックをどのように事前ポリシーと組み合わせるべきか。
RQ3 残差介入微調整が方策性能を改善する理論的保証や適用領域は何か。
RQ4 RIFT は介入の情報性と事前ポリシー品質にどれだけ敏感か。

主な発見

RIFT は、正則化なしのベースラインと比較して、さまざまな介入戦略と事前ポリシー品質の範囲で方策性能を改善する。
介入が情報性に欠ける場合、事前ポリシーへ向かう KL 正則化項が有効になる。
ω の正則化強度の比較的小さく広い範囲で、介入情報性に依存してほぼ最適レベルの性能を達成できる。
残差微調整の視点を用いると、介入と事前ポリシーを組み合わせることで原理的な改善が生じる理由が明確になる。
事前ポリシーが介入以外の情報を提供しない場合や ω が過度に高く設定される場合には失敗例があり、補足情報と適切な調整の必要性が示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。