Skip to main content
QUICK REVIEW

[논문 리뷰] Robust Intervention Learning from Emergency Stop Interventions

Ethan Pronovost, Khimya Khetarpal|arXiv (Cornell University)|2026. 02. 03.
Reinforcement Learning in Robotics인용 수 0
한 줄 요약

이 논문은 Robust Intervention Learning (RIL)과 Residual Intervention Fine-Tuning (RIFT)를 도입하여 불완전한 긴급 중지 신호를 prior 정책과 결합한 잔차 Q-learning을 통해 정책을 향상시키는 방법을 제시합니다. 이론과 실험은 개입 정보성 및 prior 품질의 변화에 따라 principled한 정책 개선이 언제 발생하는지 보여줍니다.

ABSTRACT

Human interventions are a common source of data in autonomous systems during testing. These interventions provide an important signal about where the current policy needs improvement, but are often noisy and incomplete. We define Robust Intervention Learning (RIL) as the problem of learning from intervention data while remaining robust to the quality and informativeness of the intervention signal. In the best case, interventions are precise and avoiding them is sufficient to solve the task, but in many realistic settings avoiding interventions is necessary but not sufficient for achieving good performance. We study robust intervention learning in the context of emergency stop interventions and propose Residual Intervention Fine-Tuning (RIFT), a residual fine-tuning algorithm that treats intervention feedback as an incomplete learning signal and explicitly combines it with a prior policy. By framing intervention learning as a fine-tuning problem, our approach leverages structure encoded in the prior policy to resolve ambiguity when intervention signals under-specify the task. We provide theoretical analysis characterizing conditions under which this formulation yields principled policy improvement, and identify regimes where intervention learning is expected to fail. Our experiments reveal that residual fine-tuning enables robust and consistent policy improvement across a range of intervention strategies and prior policy qualities, and highlight robust intervention learning as a promising direction for future work.

연구 동기 및 목표

  • 배제된 개입만으로 과제를 해결하기에 충분하지 않은 상황에서 불완전한 배치 개입으로부터의 학습 동기를 제시한다.
  • 개입 피드백과 prior 정책을 혼합하는 잔차 미세조정 접근법을 제안한다.
  • 개입 가이드라인에 따른 fine-tuning이 정책 성능을 개선하는 이론적 조건을 제시한다.
  • 다양한 개입 전략과 prior 정책 품질에 대해 RIFT의 견고성을 입증한다.

제안 방법

  • Robust Intervention Learning을 개입 피드백과 prior 정책을 결합해야 하는 불완전한 개입 전략에서 학습하는 것으로 형식화한다.
  • Residual Intervention Fine-Tuning (RIFT)을 도입하여 prior 정책으로 방향성을 정규화하고 개입에 대한 부정 보상을 포함하는 잔차 Q-learning 목표를 사용한다.
  • 긴급 중지 개입을 확률 (phi)인 Bernoulli 신호로 모델링하고 정책 업데이트를 안내하는 잔차 벨만 방정식을 도출한다.
  • 엔트로피 계수가 개입 가중치와 일치할 때 RIFT가 잔차 Q-learning에 해당하는 fine-tuning 목표와 동등하다는 것을 보인다.
  • 개입 전략과 방문(visit) 및 이점(advantage) 차이를 통해 정책 개선으로 연결되는 이론적 분석을 제공한다.
  • Gym 환경에서 시뮬레이션된 전문가와 다양한 priors를 이용하여 견고성과 하이퍼파라미터 omega에 대한 가이드를 평가한다.

실험 결과

연구 질문

  • RQ1긴급 중지 개입과 prior 정책이 결합될 때, 개입을 피하는 것 이상으로 정책 개선이 발생하는 조건은 무엇인가?
  • RQ2Incomplete supervision의 모호함을 해소하기 위해 개입 피드백을 prior 정책과 어떻게 결합해야 하는가?
  • RQ3잔차 개입 미세조정이 정책 성능을 개선하는 이론적 보장이나 제약Condition은 무엇인가?
  • RQ4RIFT가 개입의 정보성 및 prior 정책의 품질에 얼마나 민감한가?

주요 결과

  • RIFT는 정규화되지 않은 baselines에 비해 다양한 개입 전략 및 prior 정책 품질에서 정책 성능을 개선한다.
  • 개입이 덜 정보적일 때 prior 정책 방향으로의 KL 정규화 항이 도움이 된다.
  • 개입 정보성에 따라 omega의 비교적 작고 넓은 창에서도 거의 최적 수준의 성능이 달성될 수 있다.
  • 잔차 미세조정 관점은 개입과 prior 정책을 결합할 때 원칙적으로 개선이 왜 발생하는지 명확히 보여준다.
  • prior 정책이 개입 이상의 정보를 제공하지 못하거나 omega가 너무 높게 설정될 때의 실패 사례가 있으며, 보완적 정보 및 적절한 조정의 필요성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.