QUICK REVIEW

[논문 리뷰] Causal Confusion in Imitation Learning

Pim de Haan, Dinesh Jayaraman|arXiv (Cornell University)|2019. 05. 28.

Robot Manipulation and Learning참고 문헌 56인용 수 127

한 줄 요약

본 논문은 분포 이동하에서 의사 학습의 핵심 실패 모드로서의 인과 오식 식별을 식별하고, 대상 환경 상호작용 또는 전문가 질의를 통해 실제 인과 모델을 복구하는 인과적으로 근거를 둔 개입 프레임워크를 제안한다.

ABSTRACT

Behavioral cloning reduces policy learning to supervised learning by training a discriminative model to predict expert actions given observations. Such discriminative models are non-causal: the training procedure is unaware of the causal structure of the interaction between the expert and the environment. We point out that ignoring causality is particularly damaging because of the distributional shift in imitation learning. In particular, it leads to a counter-intuitive "causal misidentification" phenomenon: access to more information can yield worse performance. We investigate how this problem arises, and propose a solution to combat it through targeted interventions---either environment interaction or expert queries---to determine the correct causal model. We show that causal misidentification occurs in several benchmark control domains as well as realistic driving settings, and validate our solution against DAgger and other baselines and ablations.

연구 동기 및 목표

분포 이동으로 인한 인과 오식 식별 때문에 비인과적 행동 복제가 어떻게 실패할 수 있는지 식별한다.
의사 학습에서 인과 그래프와 개입의 역할을 형식화한다.
그래프 매개화 정책 프레임워크와 올바른 인과 모델을 복구하기 위한 대상 개입을 제안한다.
벤치마크 제어 작업 및 현실적인 주행 시나리오에 대해 표준 기준선 및 ablation 연구와 함께 접근 방식을 평가한다.

제안 방법

정책을 인과 그래프 G에 매개화된 혼합으로 모델링하고, 각 그래프가 전문가 행동의 원인인지 여부를 정의한다.
그래프 매개화 정책을 그래프를 샘플링하고 시연에서의 행동 예측 손실을 최소화하여 학습한다.
개입 질의(전문가 또는 환경 기반)를 사용하여 불일치 또는 수익을 평가함으로써 진짜 인과 그래프를 점수화하고 식별한다.
두 가지 개입 모드를 제공한다: 전문의 질의 개입(정보가 있는 상태에 대한 적극적 질의)와 정책 실행 개입(그래프 간 에피소드 수익 비교).
이미지 데이터를 사용할 때 상태 표현이 인과를 잡음으로부터 분리하도록 베타-VAE로 관측을 분리한다.

실험 결과

연구 질문

RQ1의사 학습에서의 인과 오식 식별이 무엇이며 분포 이동하에서 어떻게 발생하는가?
RQ2대상 개입이 진짜 인과 모델을 식별하고 의사 정책의 강건성을 향상시킬 수 있는가?
RQ3전문가 질의와 환경 기반 개입 중 어떤 것이 올바른 그래프를 회복하는 데 더 효과적인가?
RQ4관찰의 분리를 통해 진짜 원인을 발견하는 능력에 영향이 있는가?
RQ5제안된 방법이 표준 벤치마크 및 현실적인 주행 작업에서 DAgger, dropout, GAIL과 어떻게 비교되는가?

주요 결과

인과 오식 식별은 정책에 노이즈 상관관계가 잘못된 방향으로 작용하여 정보가 많아질수록 의존 학습 성능이 더 악화된다.
그래프 매개화 정책과 대상 개입을 통해 올바른 인과 모델을 식별하고 성능 격차를 줄일 수 있다.
정책 실행 개입은 주행 유사 작업에서 전형적으로 전문의 질의 접근보다 더 적은 에피소드로 진짜 인과 모델에 수렴한다.
전문가 질의 개입은 여러 작업에서 DAgger에 비해 비교 가능한 개선을 달성하기 위해 필요한 질의 수가 더 적다.
베타-VAE를 통한 관계 분리된 상태 표현은 진짜 원인을 발견하는 데 중요하며 개입 성과를 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.