[논문 리뷰] Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
AIRL은 구분된 보상을 학습하는 확장 가능한 IRL 방법으로, 미지의 또는 변화된 dynamics 하에서 정책 최적화를 가능하게 하며, 전이 태스크에서 이전 IRL 및 GAN 기반 방법보다 우수하고 imitation 벤치마크와도 일치합니다.
Reinforcement learning provides a powerful and general framework for decision making and control, but its application in practice is often hindered by the need for extensive feature and reward engineering. Deep reinforcement learning methods can remove the need for explicit engineering of policy or value features, but still require a manually specified reward function. Inverse reinforcement learning holds the promise of automatic reward acquisition, but has proven exceptionally difficult to apply to large, high-dimensional problems with unknown dynamics. In this work, we propose adverserial inverse reinforcement learning (AIRL), a practical and scalable inverse reinforcement learning algorithm based on an adversarial reward learning formulation. We demonstrate that AIRL is able to recover reward functions that are robust to changes in dynamics, enabling us to learn policies even under significant variation in the environment seen during training. Our experiments show that AIRL greatly outperforms prior methods in these transfer settings.
연구 동기 및 목표
- RL에서 보상 설계의 병목 현상을 동기화하고 자동 보상 획득의 필요성을 제시한다.
- 다양한 dynamics에 걸쳐 휴대 가능한 보상을 얻는 실용적인 IRL 알고리즘을 개발한다.
- 보상 형상화(shaping)와 모호성을 다루어 분리된 보상을 학습한다.
- 알 수 없는 dynamics를 갖는 연속 제어에 대한 확장성 및 학습된 보상의 전이 가능성을 입증한다.
제안 방법
- 보상과 가치 함수를 함께 학습하기 위해 adversarial IRL 프레임워크를 채택한다.
- f(s,a)와 disentangled reward를 연결하는 단일 상태-액션 판별기를 사용한다: f(s,a,s') = g_theta(s,a) + gamma h_phi(s') - h_phi(s).
- 역할 분리(disentanglement)를 달성하기 위해 보상 구성요소 g_theta를 상태-전용으로 제약한다.
- 의도치 않은 보상 형성 효과를 완화하기 위해 shaping 항 h_phi를 도입한다.
- 교대 업데이트를 통해 학습한다: 전문가 샘플과 정책 샘플을 구분하고, 이후 보상 모델과 정책을 업데이트한다.
- 학습된 g_theta가 특정 설정에서 상수 차이로 ground-truth 보상을 회복한다는 이론적 정당성을 제공한다.
실험 결과
연구 질문
- RQ1AIRL이 환경 다이나믹스의 변화에 강인한 구분된 보상을 학습할 수 있는가?
- RQ2AIRL이 고차원 연속 제어 태스크에서 확장성과 효율성을 갖추고 있는가?
- RQ3구분된 보상을 회복하는 것이 도메인 시프트가 있는 환경에서 이전 IRL 방법들에 비해 전이 성능을 개선하는가?
주요 결과
- AIRL은 다이나믹스 변화에 걸쳐 전이 가능한 구분된 보상을 학습하고, 전이 설정에서 순진한 IRL 방법들보다 우수하게 작동한다.
- 표 형식 MDP에서 상태-전용 보상은 상수 차이로 ground-truth 보상을 재현하는 반면, 상태-액션 보상은 형상화된 이점을 제공한다.
- 연속 제어 전이 태스크에서, 상태-전용 보상을 사용하는 AIRL은 도메인 시프트 하에서 정책이나 비구분된 IRL 방법이 전이하지 못하는 경우에도 성공한다.
- AIRL은 표준 imitation 벤치마크에서 GAIL과 일치하지만 전이/일반화 시나리오에서 GAIL을 크게 능가한다.
- GAN-GCL은 고차원 태스크에서 트레이젝토리 중심 학습에 어려움을 겪는 반면, AIRL은 여전히 확장 가능하고 효과적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.