QUICK REVIEW

[논문 리뷰] Imitation Learning from Observations by Minimizing Inverse Dynamics Disagreement

Chao Yang, Xiaojian Ma|arXiv (Cornell University)|2019. 10. 10.

Reinforcement Learning in Robotics인용 수 27

한 줄 요약

이 논문은 관찰에서 학습(LfO)을 위한 모델 프리(method-free) 방법인 역운동역학불일치최소화(IDDM)를 제안한다. 이는 전문가와 모방자 역운동역학 모델 간의 불일치를 최소화하여 LfO와 행동지도 학습(LfD) 간의 성능 격차를 줄인다. 이 불일치 격차의 상한을 음의 인과적 엔트로피로 이끌어내어, 모델 프리 방식으로 최소화함으로써 어려운 제어 벤치마크에서 성능을 향상시키며, 기존의 LfO 방법들, 특히 GAIfO를 뛰어넘는 일관된 성능 향상을 보였다.

ABSTRACT

This paper studies Learning from Observations (LfO) for imitation learning with access to state-only demonstrations. In contrast to Learning from Demonstration (LfD) that involves both action and state supervision, LfO is more practical in leveraging previously inapplicable resources (e.g. videos), yet more challenging due to the incomplete expert guidance. In this paper, we investigate LfO and its difference with LfD in both theoretical and practical perspectives. We first prove that the gap between LfD and LfO actually lies in the disagreement of inverse dynamics models between the imitator and the expert, if following the modeling approach of GAIL. More importantly, the upper bound of this gap is revealed by a negative causal entropy which can be minimized in a model-free way. We term our method as Inverse-Dynamics-Disagreement-Minimization (IDDM) which enhances the conventional LfO method through further bridging the gap to LfD. Considerable empirical results on challenging benchmarks indicate that our method attains consistent improvements over other LfO counterparts.

연구 동기 및 목표

전문가 행동이 가용하지 않은 상태 전용 시연에서의 모방 학습(LfO)의 과제를 해결하기 위해, 이는 LfD와 비교해 성능이 제한됨.
GAIL 모델링 프레임워크 기반으로 LfO와 LfD 간의 성능 격차가 전문가 및 모방자 모델 간의 역운동역학 불일치에서 기인함을 이론적으로 규명하기 위해.
이 불일치를 최소화하는 모델 프리 방법을 제안하여 격차를 해소하고 LfO 성능을 향상시키기 위해.
다양한 제어 벤치마크에서 방법을 실증적으로 검증하여, 기존 LfO 기준선보다 일관된 성능 향상을 보여주기 위해.

제안 방법

GAIL 모델링 프레임워크 기반으로 LfO와 LfD 간 성능 격차를 전문가 및 모방자 모델 간의 역운동역학 불일치로 공식화한다.
이 격차의 상한을 상태-행동 점유도 측도의 음의 인과적 엔트로피로 유도하며, 이를 모델 프리 방식으로 최소화한다.
음의 엔트로피 항은 상호정보량(MI) 성분을 포함하며, 이는 MINE 추정기로 최적화되어 효율적인 훈련이 가능하다.
이 방법은 두 하이퍼파라미터를 도입한다: 정책 엔트로피 정규화를 위한 λp와 MI 항의 가중치를 위한 λs로, 이는 아블레이션을 통해 조정된다.
방법은 전이적인 GAIL 스타일의 대립 프레임워크에서 끝에서 끝까지 구현되며, 전문가 시연의 상태 트레이젝터리만을 사용한다.
이 방법은 고차원 행동 공간을 가진 연속 제어 환경, 특히 이동 및 조작 과제를 포함한 다양한 환경에 적용된다.

실험 결과

연구 질문

RQ1GAIL 기반 모델링을 사용할 때 LfO와 LfD 간 성능 격차의 이론적 근본 원인이 무엇인가?
RQ2전문가 및 모방자 모델 간의 역운동역학 불일치를 최소화하면 LfO에서 성능 격차를 메울 수 있는가?
RQ3성능 격차의 상한이 음의 인과적 엔트로피로 표현될 수 있으며, 이를 모델 프리 방식으로 최적화할 수 있는가?
RQ4제안된 IDDM 방법은 GAIfO와 같은 기존 LfO 기준선과 비교해 다양한 제어 과제에서 어떻게 성능을 내는가?
RQ5정책 엔트로피와 상호정보량 항이 IDDM의 최종 성능에 기여하는 정도는 어떠한가?

주요 결과

그리드월드 환경에서, IDDM는 1개의 행동 선택지에서 87.3±1.8%의 성공률을 기록했으며, GAIfO의 86.8±1.3%와 GAIL의 86.0±3.0%를 뛰어넘었다.
11개의 행동 선택지에서 IDDM는 49.0±8.6%의 성공률을 기록했으며, GAIfO의 28.3±6.2%와 GAIL의 69.0±4.0%를 크게 앞서며 유의미한 성능 향상을 보였다.
HalfCheetah 환경에서 IDDM는 λs=0.1과 λp=0.001 조건에서 평균 수익 5540.5±100.3을 기록했으며, 베이스라인인 GAIfO(4658.0±90.2)와 다른 아블레이션 설정을 모두 초월했다.
아블레이션 연구 결과, 정책 엔트로피(λp)와 상호정보량(MI, λs) 항 모두 성능 향상에 기여하며, 특히 λs가 더 두드러지고 안정적인 영향을 미친다.
그리드 서치 결과, MI 항을 추가하면 모든 하이퍼파라미터 설정에서 성능 향상이 일관되게 관찰되었으며, λs가 증가할수록 성능 향상 폭이 커졌다.
IDDM는 CartPole, 펜듈럼, 허퍼, 할프체타, 앤티, 더블펜듈럼 포함한 7개의 모든 벤치마크 환경에서 GAIfO를 일관되게 뛰어넘는 성능 향상을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.