[논문 리뷰] Learning from Suboptimal Demonstration via Self-Supervised Reward Regression
본 논문은 SSRR을 제시합니다, 서브옵티멈 시연에서 이상화된 보상을 학습하는 IRL 프레임워크로, 노이즈-성과 관계를 시그모이드 로우패스 필터로 모델링하고 Noisy-AIRL을 사용하여 로버스트한 보상과 정책을 학습하며 기존 연구를 능가합니다.
Learning from Demonstration (LfD) seeks to democratize robotics by enabling non-roboticist end-users to teach robots to perform a task by providing a human demonstration. However, modern LfD techniques, e.g. inverse reinforcement learning (IRL), assume users provide at least stochastically optimal demonstrations. This assumption fails to hold in most real-world scenarios. Recent attempts to learn from sub-optimal demonstration leverage pairwise rankings and following the Luce-Shepard rule. However, we show these approaches make incorrect assumptions and thus suffer from brittle, degraded performance. We overcome these limitations in developing a novel approach that bootstraps off suboptimal demonstrations to synthesize optimality-parameterized data to train an idealized reward function. We empirically validate we learn an idealized reward function with ~0.95 correlation with ground-truth reward versus ~0.75 for prior work. We can then train policies achieving ~200% improvement over the suboptimal demonstration and ~90% improvement over prior work. We present a physical demonstration of teaching a robot a topspin strike in table tennis that achieves 32% faster returns and 40% more topspin than user demonstration.
연구 동기 및 목표
- 서브옵틱 인간 시연으로부터 학습을 가능하게 하여 로봇 학습의 민주화를 촉진한다.
- 기존의 서브옵티멈 시연 방법들이 왜 실패하는지 파악하고 견고한 대안을 제시한다.
- 잠재적 작업 목표를 포착하는 이상화된 보상 함수를 추론한다.
- 주어진 서브옵티멈 시연을 크게 능가하는 정책을 학습한다.
- 로봇 탁구를 통해 실제 세계 적용 가능성을 입증한다.
제안 방법
- 서브옵틱 시연으로부터 초기 보상과 정책을 얻기 위해 AIRL을 사용한다.
- 학습된 정책에 노이즈를 주입하여 분석을 위한 합성적이고 노이즈가 있는 궤적을 생성한다.
- 주입된 노이즈의 함수로 학습된 정책의 성능을 시그모이드(저역통과) 곡선을 사용해 특성화한다.
- 노이즈-성과 관계를 모델링하기 위해 네 파라미터 시그모이드를 맞춘다(식 4).
- 학습된 노이즈-성과 곡선에 의해 안내된 궤적 데이터에 대해 회귀하여 이상화된 보상 함수 R_theta를 학습한다(식 5).
- 노이즈가 있는 AIRL 생성기에 노이즈를 주입하고 판별자 손실에서 중요 샘플링을 사용하여 강건성을 높이기 위해 Noisy-AIRL를 도입한다(식 6).
실험 결과
연구 질문
- RQ1서브옵티멈 시연이 IRL 방법에 편향을 어떻게 주는가, 그리고 저하 곡선을 정확히 모델링할 수 있는가?
- RQ2노이즈로 인한 성능 저하를 시그모이드 기반으로 특징지으면 서브옵티멈 데이터에서 보상 회귀를 향상시킬 수 있는가?
- RQ3자기지도 노이즈-정책 데이터의 활용이 보상 함수 정확도와 다운스트림 정책 성능을 개선하는가?
- RQ4서브옵틱 시연으로부터 학습할 때 공변량 변화에 대한 강건성에 Noisy-AIRL은 어떤 영향을 미치는가?
- RQ5시뮬레이션 및 현실 로봇 작업에 SSRR을 적용할 때 경험적 성능 향상은 어느 정도인가?
주요 결과
- SSRR은 시뮬레이션 과제에서 실제 보상과 약 0.94–0.97의 상관관계를 갖는 보상 함수를 달성하며, 기존 연구(약 0.75 범위)보다 우수하다.
- Noisy-AIRL은 초기 보상 추정치를 개선하고 SSRR용 합성 데이터의 품질을 높인다.
- SSR R의 보상 함수로 학습된 정책은 서브옵티멈 시연에 비해 큰 개선을 보이며(시뮬레이션에서 평균 약 163–192%, 로테이블-테니스 현실 과제에서 더 빠른 반환 약 32%, 탑스핀 약 40% 증가).
- SSR R은 Noisy-AIRL과 결합해 MuJoCo 과제(HalfCheetah, Hopper, Ant)에서 D-REX보다 더 높은 궤적 순위 정확도를 제공한다.
- D-REX의 Luce-Shepard 기반 가정은 서브옵티멈 시연 학습에 대해 역효과를 내는 귀납 편향임이 입증된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.