Skip to main content
QUICK REVIEW

[논문 리뷰] Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning

Ilya Kostrikov, Kumar Krishna Agrawal|arXiv (Cornell University)|2018. 09. 09.
Adversarial Robustness in Machine Learning인용 수 67
한 줄 요약

DAC는 off-policy 구분자와 off-policy 정책-비평 RL을 도입하여 적대적 모방 학습에서 샘플 복잡도와 보상 추정의 편향을 줄인다. 흡수 상태를 처리하고 기존 AIL 방법들보다 효율성과 강건성이 개선되었음을 보인다.

ABSTRACT

We identify two issues with the family of algorithms based on the Adversarial Imitation Learning framework. The first problem is implicit bias present in the reward functions used in these algorithms. While these biases might work well for some environments, they can also lead to sub-optimal behavior in others. Secondly, even though these algorithms can learn from few expert demonstrations, they require a prohibitively large number of interactions with the environment in order to imitate the expert for many real-world applications. In order to address these issues, we propose a new algorithm called Discriminator-Actor-Critic that uses off-policy Reinforcement Learning to reduce policy-environment interaction sample complexity by an average factor of 10. Furthermore, since our reward function is designed to be unbiased, we can apply our algorithm to many problems without making any task-specific adjustments.

연구 동기 및 목표

  • 적대적 모방 학습에서 구분기 기반 보상 추정의 편향을 식별한다.
  • 오프폴리시 방법을 사용하여 정책-환경 상호작용 샘플 복잡성을 줄인다.
  • 흡수 상태에 대한 보상을 명시적으로 모델링하여 학습된 보상 함수를 편향하지 않는다.
  • 노이즈가 있거나 다모드(multimodal)이며 제약된 전문가 시연(인간 시연 포함)에 대해 강건성을 보장한다.

제안 방법

  • 오프폴리시 구분자를 도입하고 오프폴리시 RL 알고리즘으로 학습하여 샘플 복잡성을 줄인다.
  • 터미널 전이의 암묵적 사전 지식을 제거하기 위해 흡수 상태에 대한 보상을 명시적으로 학습한다.
  • 에피소드형 작업을 올바르게 처리하기 위해 전문가 궤적에 흡수 상태를 래핑한다.
  • 재생 버퍼의 전이로 구분기를 업데이트하여 점유율 측정치(occupancy measures)를 맞춘다.
  • GAIL/AIRL에서 영감을 받은 보상으로 정책 최적화를 위한 TD3를 오프폴리시 정책-비평 구조로 활용한다.
  • 오프폴리시 설정에서 구분기 학습의 안정성을 높이기 위해 그래디언트 페널티를 적용한다.

실험 결과

연구 질문

  • RQ1구분기 기반 모방 학습의 보상 편향이 에피소드 환경에서의 작업 성능에 미치는 영향은 무엇인가?
  • RQ2오프폴리시 학습이 모방 학습에 필요한 환경 상호작용 수를 줄일 수 있는가?
  • RQ3흡수 상태 보상을 학습하면 생존 보너스나 단계당 페널티가 있는 다양한 작업에서 모방 품질이 개선되는가?
  • RQ4노이즈가 있거나 서브 최적의 시연(인간 데이터 포함)에 대해 Discriminator-Actor-Critic 프레임워크가 강건한가?
  • RQ5표준 벤치마크에서 DAC의 GAIL 및 AIRL 대비 호환성 및 성능 개선은 어떠한가?

주요 결과

  • DAC는 여러 모방 학습 작업에서 최첨단 성능을 달성한다.
  • DAC는 TRPO/PPO 기반 GAIL 기준선에 비해 샘플 효율성이 한 차원 더 우수하다.
  • 현저히 적은 환경 스텝으로도 DAC는 MuJoCo 작업에서 GAIL 기준선과 동등하거나 더 나은 보상을 달성한다.
  • 흡수 상태 보상을 학습함으로써 작업별 보상 설계의 필요성을 제거하고 에피소드형 환경에서 성능을 향상시킨다.
  • DAC는 로봇 작업에서 노이즈가 있거나 다모드, 인간 시연에 대해 강건함을 보인다.
  • 오프폴리시 구분기 학습과 TD3의 결합은 적대적 모방 학습의 안정성과 효율성을 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.