QUICK REVIEW

[논문 리뷰] Directed-Info GAIL: Learning Hierarchical Policies from Unsegmented Demonstrations using Directed Information

Arjun Sharma, Mohit Sharma|arXiv (Cornell University)|2018. 09. 29.

Machine Learning and Algorithms참고 문헌 25인용 수 29

한 줄 요약

이 논문은 비구분된 전문가 시뮬레이션에서 하위 작업 잠재 변수와 관측된 궤적 사이의 유도 정보를 최대화함으로써 비구분된 전문가 시뮬레이션에서 계층적 정책을 학습하는 생성적 적대적 타imitation 학습 프레임워크인 Directed-Info GAIL을 제안한다. 하위 작업 전이를 인과 그래픽 모델로 모델링하고 상호 정보 대신 유도 정보를 사용함으로써, 이 방법은 의미 있는 하위 작업 구조를 자동으로 발견하고 하위 작업 정책과 이들 사이를 전환하는 거시 정책을 모두 학습한다. 연속 제어 환경에서 분할 및 작업 완료 성능 측면에서 기준선 GAIL 및 VAE 방법보다 뛰어나다.

ABSTRACT

The use of imitation learning to learn a single policy for a complex task that has multiple modes or hierarchical structure can be challenging. In fact, previous work has shown that when the modes are known, learning separate policies for each mode or sub-task can greatly improve the performance of imitation learning. In this work, we discover the interaction between sub-tasks from their resulting state-action trajectory sequences using a directed graphical model. We propose a new algorithm based on the generative adversarial imitation learning framework which automatically learns sub-task policies from unsegmented demonstrations. Our approach maximizes the directed information flow in the graphical model between sub-task latent variables and their generated trajectories. We also show how our approach connects with the existing Options framework, which is commonly used to learn hierarchical policies.

연구 동기 및 목표

비구분되고 비정형적인 전문가 시뮬레이션에서 계층적 정책을 학습하는 문제에 대응하기 위해, 이전 방법들이 분할된 데이터를 필요로 하는 점을 해결한다.
학습 중 미래 상태가 관측되지 않는 데 의존하는 상호 정보 기반 접근법의 한계를 극복한다.
사전에 분할된 시뮬레이션을 요구하지 않고도 하위 작업 특화 정책과 이들 사이를 전환하는 거시 정책을 모두 학습한다.
정보 이론적 시각에서 제안된 방법을 계층 강화 학습의 옵션 프레임워크와 연결한다.
행동 복제에서 흔히 발생하는 누적 오류를 줄임으로써 타imitation 학습의 강건성을 향상시킨다.

제안 방법

이 방법은 하위 작업 잠재 변수와 상태-행동 궤적 간의 상호작용을 인과 그래픽 모델로 모델링하며, 이는 동적 베이지안 네트워크로 표현된다.
궤적에서 잠재 요소로의 유도 정보를 최대화함으로써 과거 관측에 대한 인과적 의존성을 보장하고 향후 의존성 없이 순차적 학습을 가능하게 한다.
생성적 적대적 타imitation 학습(GAIL)을 확장하여 하위 작업 정체성을 인코딩하고 정책 생성을 조건화하는 잠재 변수 모델을 통합한다.
판별자는 전문가 궤적과 생성된 궤적을 구별하도록 훈련되며, 생성자(정책)는 잠재 코드로의 유도 정보 흐름을 최대화하도록 최적화된다.
관측된 과거 상태와 행동에 기반하여 하위 작업 간 전이를 인과 조건부 확률 분포로 모델링한다.
이 방법은 잠재 변수가 옵션에 해당하고 거시 정책이 옵션 전환을 제어하는 옵션 프레임워크와 연결된다.

실험 결과

연구 질문

RQ1비구분된 전문가 시뮬레이션에서 사전 분할 없이도 유도 정보를 사용하여 하위 작업 구조를 발견할 수 있는가?
RQ2유도 정보를 최대화하는 것이 상호 정보에 비해 계층적 타imitation 학습에서 정책 학습에 어떻게 향상되는가?
RQ3제안된 방법은 원시적이고 비정형적인 시뮬레이션에서 하위 작업 정책과 이들 사이를 전환하는 거시 정책을 모두 학습할 수 있는가?
RQ4복잡한 제어 과제에서 표준 GAIL 및 VAE 기준선 대비 이 방법의 성능 향상 정도는 어느 정도인가?
RQ5옵션 프레임워크와의 통합은 계층적 타imitation 학습에서 해석 가능성과 성능에 어떻게 기여하는가?

주요 결과

FetchPickandPlace-v1 환경에서 Directed-Info GAIL + L2 손실은 100 에피소드 동안 평균 수익이 -9.47 ± 4.84를 기록했으며, 이는 GAIL(-13.29 ± 5.84) 및 VAE(-14.07 ± 5.57)보다 유의미하게 뛰어나다.
행동 일치를 위한 L2 손실 추가로 성능이 크게 향상되었으며, 제안된 방법은 GAIL보다 더 일관된 팔다리 제어 행동을 보였다.
정성적 분석 결과, Directed-Info GAIL 에이전트는 GAIL 에이전트보다 더 신뢰성 있게 물체를 抓는 데 성공했으며, GAIL 에이전트는 자주 집게를 제대로 닫지 않거나 조기에 닫는 경향을 보였다.
이 방법은 Fetch 환경에서 전문가 시뮬레이션을 의미 있는 하위 작업으로 성공적으로 분할했다. 예를 들어 Pick 및 Place와 같은 작업으로 분할되었다.
제안된 접근법은 정밀하고 미세한 동작이 필요한 과제에서 특히 더 나은 일반화 성능과 누적 오류 감소를 보였다.
결과적으로, 특히 피드백이 풍부한 인과 모델에서 상호 정보보다 유도 정보가 정보 흐름에 대해 더 나은 상한선을 제공하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.