QUICK REVIEW

[논문 리뷰] Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning

Ilya Kostrikov, Kumar Krishna Agrawal|arXiv (Cornell University)|2018. 09. 09.

Reinforcement Learning in Robotics참고 문헌 34인용 수 76

한 줄 요약

DAC는 오프폴리시 차별화 및 오프폴리시 배우-비평가 강화학습을 사용하여 적대적 모방 학습에서 샘플 복잡도를 줄이고 보상의 편향을 제거하며, 더 적은 환경 상호작용으로 성능을 향상시킵니다.

ABSTRACT

We identify two issues with the family of algorithms based on the Adversarial Imitation Learning framework. The first problem is implicit bias present in the reward functions used in these algorithms. While these biases might work well for some environments, they can also lead to sub-optimal behavior in others. Secondly, even though these algorithms can learn from few expert demonstrations, they require a prohibitively large number of interactions with the environment in order to imitate the expert for many real-world applications. In order to address these issues, we propose a new algorithm called Discriminator-Actor-Critic that uses off-policy Reinforcement Learning to reduce policy-environment interaction sample complexity by an average factor of 10. Furthermore, since our reward function is designed to be unbiased, we can apply our algorithm to many problems without making any task-specific adjustments.

연구 동기 및 목표

적대적 모방 학습에서 판별자 기반 보상 추정의 편향을 식별한다.
오프폴리시 구성요소를 도입하여 정책-환경 상호작용 샘플 복잡도를 감소시킨다.
흡수 상태를 명시적으로 다루어 학습된 보상의 편향을 제거한다.
노이즈가 있거나 다모드하고 제약된 시연(인간 데이터 포함)에 대한 DAC의 강건성을 입증한다.
도전적인 모방 학습 작업에서 최첨단 성능을 보여준다.

제안 방법

재생 버퍼로 학습된 오프폴리시 차별자를 사용해 전문가의 점유 측정치를 일치시킨다.
종단 상태로부터의 편향을 제거하고 에피소드 작업의 적절한 처리를 가능하게 하기 위해 흡수 상태 보상을 학습한다.
샘플 효율성을 높이기 위해 오프폴리시 RL 알고리즘(TD3)을 GAIL/AIRL 프레임워크에 통합한다.
오프폴리시 설정에서 차별자 학습의 안정화를 위해 기울기 패널티를 적용한다.
차별자가 제공하는 보상을 사용해 TD3로 정책을 학습시켜 시연으로부터의 효율적 학습을 가능하게 한다.

실험 결과

연구 질문

RQ1판별자 기반 모방 학습에서 보상 편향이 작업 간 정책 성능에 어떤 영향을 미치는가?
RQ2오프폴리시 차별화와 오프폴리시 RL이 시연 품질을 유지하거나 향상시키면서 환경 상호작용 요구를 줄일 수 있는가?
RQ3생존 보너스나 페널티가 있는 에피소드형 작업에서 명시적 흡수 상태 보상 학습이 성능을 향상시키는가?
RQ4DAC가 노이즈가 있거나 서브-모달하거나 다모달 전문가 데이터에 대해 강건한가?

주요 결과

다수의 연속 제어 작업에서 최첨단 모방 학습 성능을 달성한다.
이전의 온폴리시 AIL 방법들에 비해 환경 상호작용 필요량을 평균 약 10배로 감소시킨다.
흡수 상태 보상 학습을 사용하면 에피소드 환경에서 성능이 향상되고 말단 상태로 인한 편향이 완화된다.
노이즈가 있거나 다모달하거나 서브-최적의 시연(인간 시연 포함)에서도 DAC는 강건하다.
실험은 제한된 전문가 시연(예: 네 개의 전문가 궤적)에서 DAC가 GAIL 기준선을 능가함을 보여준다.
보상 편향 분석은 흡수 상태 보상을 무시하거나 특정 차별자 기반 보상을 사용하는 것이 하위 최적 정책으로 이어질 수 있음을 보여주며, 이는 DAC가 해결한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.