QUICK REVIEW

[논문 리뷰] Safe Imitation Learning via Fast Bayesian Reward Inference from Preferences

Daniel S. Brown, Russell Coleman|arXiv (Cornell University)|2020. 02. 21.

Reinforcement Learning in Robotics참고 문헌 77인용 수 37

한 줄 요약

논문은 Bayesian Reward Extrapolation (Bayesian REX)을 소개합니다. 이는 시연된 궤적 선호를 사용하여 보상 함수를 효율적으로 추론하고 Atari와 같은 고차원 작업에 대한 모방 학습의 고신뢰도 정책 평가를 제공하며, 실제 보상에 접근하지 않고도 빠른 후방 샘플링과 경쟁력 있는 모방 성능을 가능하게 합니다.

ABSTRACT

Bayesian reward learning from demonstrations enables rigorous safety and uncertainty analysis when performing imitation learning. However, Bayesian reward learning methods are typically computationally intractable for complex control problems. We propose Bayesian Reward Extrapolation (Bayesian REX), a highly efficient Bayesian reward learning algorithm that scales to high-dimensional imitation learning problems by pre-training a low-dimensional feature encoding via self-supervised tasks and then leveraging preferences over demonstrations to perform fast Bayesian inference. Bayesian REX can learn to play Atari games from demonstrations, without access to the game score and can generate 100,000 samples from the posterior over reward functions in only 5 minutes on a personal laptop. Bayesian REX also results in imitation learning performance that is competitive with or better than state-of-the-art methods that only learn point estimates of the reward function. Finally, Bayesian REX enables efficient high-confidence policy evaluation without having access to samples of the reward function. These high-confidence performance bounds can be used to rank the performance and risk of a variety of evaluation policies and provide a way to detect reward hacking behaviors.

연구 동기 및 목표

시연에서 학습된 보상에 대한 불확실성 정량화를 가능하게 하여 안전한 모방 학습의 동기를 부여한다.
궤적 선호를 활용하여 내부 루프 MDP 해를 피하는 확장 가능한 베이지안 보상 추론 방법을 개발한다.
보상 샘플이나 MDP 모델에 접근하지 않고도 모방 학습에서 고신뢰도 정책 평가를 가능하게 한다.
고차원 시각 도메인(Atari)에 적용 가능성을 입증하고 포인트 추정 방법과의 경쟁력을 보인다.

제안 방법

쌍대 순위 가능도(Bradley–Terry 모델)를 사용하여 시연 선호로부터 보상 추론을 공식화한다.
φ(s)를 저차원 상태 임베딩의 자기지도 학습으로 학습하고, 보상 R(s)=w^T φ(s)로 표현한다.
φ(s)를 자기지도 작업(역동성, 순방향 동역학, 시간 간격, 변분 오토인코더) 및 T-REX 랭킹 손실로 사전 학습하고, φ를 고정한 채 마지막 계층 가중치 w만 학습한다.
쌍대 순위 가능도에 의해 정의된 P(D,𝒫|R_θ)에 따라 P(w|D,𝒫)를 샘플링하기 위해 MCMC를 사용하고, 전체 MDP 해를 피한다.
Phi_τ의 임베딩을 캐시하여 P(D,𝒫|R_θ)을 w^TΦ_τ로 효율적으로 계산하고, 이를 통해 대규모 후방 샘플링(예: 노트북에서 약 5분에 100,000샘플)을 가능하게 한다.
선형 보상 구조를 활용하여 포스터리어 전체에서 정책 값을 단일 행렬-벡터 곱 WΦ_{cpi_{eval}}로 계산하고, 보상 불확실성 하에서의 정책 성과에 대한 고신뢰도 경계(VaR)를 얻는다.

실험 결과

연구 질문

RQ1시연 선호가 고차원 시각 제어에서 빠른 베이지안 보상 추론을 가능하게 하는가?
RQ2보상 샘플이나 MDP 해가 없이도 선호로부터의 베이지안 보상 추론이 유용한 고신뢰도 정책 평가 경계를 제공하는가?
RQ3Atari 규모의 작업에서 Bayesian REX는 기존 IRL 방법 및 순위 기반 접근법과 어떤 차이가 있는가?
RQ4대규모 베이지안 모방 학습에서 자기지도 사전 학습 및 특징 표현은 어떤 역할을 하는가?

주요 결과

Bayesian REX는 노트북에서 5분 만에 Atari 작업에 대해 약 100,000개의 후방 샘플을 생성할 수 있다.
Bayesian REX를 이용한 모방 학습은 보상을 포인트 추정만 출력하는 최첨단 방법들과 경쟁력 있거나 더 나은 성능을 달성한다.
Bayesian REX는 보상 샘플 없이도 보상 불확실성 하에서 정책 가치의 하한을 제시하는 효율적인 고신뢰도 정책 평가를 가능하게 한다.
Atari 게임에서, 선호를 활용한 Bayesian REX는 여러 게임에서 평균적으로 시연자보다 더 나은 성능을 달성한다.
이 방법은 평가 정책의 불확실성 기반 성능 경계 및 리스크 순위를 제공하여 보상 사기 탐지에 도움을 줄 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.