QUICK REVIEW

[논문 리뷰] Learning from Suboptimal Demonstration via Self-Supervised Reward Regression

Letian Chen, Rohan Paleja|arXiv (Cornell University)|2020. 10. 17.

Reinforcement Learning in Robotics참고 문헌 38인용 수 31

한 줄 요약

본 논문은 SSRR을 제시합니다, 서브옵티멈 시연에서 이상화된 보상을 학습하는 IRL 프레임워크로, 노이즈-성과 관계를 시그모이드 로우패스 필터로 모델링하고 Noisy-AIRL을 사용하여 로버스트한 보상과 정책을 학습하며 기존 연구를 능가합니다.

ABSTRACT

Learning from Demonstration (LfD) seeks to democratize robotics by enabling non-roboticist end-users to teach robots to perform a task by providing a human demonstration. However, modern LfD techniques, e.g. inverse reinforcement learning (IRL), assume users provide at least stochastically optimal demonstrations. This assumption fails to hold in most real-world scenarios. Recent attempts to learn from sub-optimal demonstration leverage pairwise rankings and following the Luce-Shepard rule. However, we show these approaches make incorrect assumptions and thus suffer from brittle, degraded performance. We overcome these limitations in developing a novel approach that bootstraps off suboptimal demonstrations to synthesize optimality-parameterized data to train an idealized reward function. We empirically validate we learn an idealized reward function with ~0.95 correlation with ground-truth reward versus ~0.75 for prior work. We can then train policies achieving ~200% improvement over the suboptimal demonstration and ~90% improvement over prior work. We present a physical demonstration of teaching a robot a topspin strike in table tennis that achieves 32% faster returns and 40% more topspin than user demonstration.

연구 동기 및 목표

서브옵틱 인간 시연으로부터 학습을 가능하게 하여 로봇 학습의 민주화를 촉진한다.
기존의 서브옵티멈 시연 방법들이 왜 실패하는지 파악하고 견고한 대안을 제시한다.
잠재적 작업 목표를 포착하는 이상화된 보상 함수를 추론한다.
주어진 서브옵티멈 시연을 크게 능가하는 정책을 학습한다.
로봇 탁구를 통해 실제 세계 적용 가능성을 입증한다.

제안 방법

서브옵틱 시연으로부터 초기 보상과 정책을 얻기 위해 AIRL을 사용한다.
학습된 정책에 노이즈를 주입하여 분석을 위한 합성적이고 노이즈가 있는 궤적을 생성한다.
주입된 노이즈의 함수로 학습된 정책의 성능을 시그모이드(저역통과) 곡선을 사용해 특성화한다.
노이즈-성과 관계를 모델링하기 위해 네 파라미터 시그모이드를 맞춘다(식 4).
학습된 노이즈-성과 곡선에 의해 안내된 궤적 데이터에 대해 회귀하여 이상화된 보상 함수 R_theta를 학습한다(식 5).
노이즈가 있는 AIRL 생성기에 노이즈를 주입하고 판별자 손실에서 중요 샘플링을 사용하여 강건성을 높이기 위해 Noisy-AIRL를 도입한다(식 6).

실험 결과

연구 질문

RQ1서브옵티멈 시연이 IRL 방법에 편향을 어떻게 주는가, 그리고 저하 곡선을 정확히 모델링할 수 있는가?
RQ2노이즈로 인한 성능 저하를 시그모이드 기반으로 특징지으면 서브옵티멈 데이터에서 보상 회귀를 향상시킬 수 있는가?
RQ3자기지도 노이즈-정책 데이터의 활용이 보상 함수 정확도와 다운스트림 정책 성능을 개선하는가?
RQ4서브옵틱 시연으로부터 학습할 때 공변량 변화에 대한 강건성에 Noisy-AIRL은 어떤 영향을 미치는가?
RQ5시뮬레이션 및 현실 로봇 작업에 SSRR을 적용할 때 경험적 성능 향상은 어느 정도인가?

주요 결과

SSRR은 시뮬레이션 과제에서 실제 보상과 약 0.94–0.97의 상관관계를 갖는 보상 함수를 달성하며, 기존 연구(약 0.75 범위)보다 우수하다.
Noisy-AIRL은 초기 보상 추정치를 개선하고 SSRR용 합성 데이터의 품질을 높인다.
SSR R의 보상 함수로 학습된 정책은 서브옵티멈 시연에 비해 큰 개선을 보이며(시뮬레이션에서 평균 약 163–192%, 로테이블-테니스 현실 과제에서 더 빠른 반환 약 32%, 탑스핀 약 40% 증가).
SSR R은 Noisy-AIRL과 결합해 MuJoCo 과제(HalfCheetah, Hopper, Ant)에서 D-REX보다 더 높은 궤적 순위 정확도를 제공한다.
D-REX의 Luce-Shepard 기반 가정은 서브옵티멈 시연 학습에 대해 역효과를 내는 귀납 편향임이 입증된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.