QUICK REVIEW

[논문 리뷰] Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization

Chelsea Finn, Sergey Levine|arXiv (Cornell University)|2016. 03. 01.

Optical Imaging and Spectroscopy Techniques인용 수 369

한 줄 요약

이 논문은 Demonstrations에서 비선형 비용 함수(예: 신경망)를 학습하는 Guided Cost Learning을 도입하며, 최대 엔트로피 IOC와 정책 최적화를 통합하여 알려지지 않은 다이나믹스와 고차원 시스템을 처리하고 로봇 태스크에서 개선된 성능과 샘플 효율성을 달성합니다.

ABSTRACT

Reinforcement learning can acquire complex behaviors from high-level specifications. However, defining a cost function that can be optimized effectively and encodes the correct task is challenging in practice. We explore how inverse optimal control (IOC) can be used to learn behaviors from demonstrations, with applications to torque control of high-dimensional robotic systems. Our method addresses two key challenges in inverse optimal control: first, the need for informative features and effective regularization to impose structure on the cost, and second, the difficulty of learning the cost function under unknown dynamics for high-dimensional continuous systems. To address the former challenge, we present an algorithm capable of learning arbitrary nonlinear cost functions, such as neural networks, without meticulous feature engineering. To address the latter challenge, we formulate an efficient sample-based approximation for MaxEnt IOC. We evaluate our method on a series of simulated tasks and real-world robotic manipulation problems, demonstrating substantial improvement over prior methods both in terms of task complexity and sample efficiency.

연구 동기 및 목표

전문가 시연으로부터 학습 태스크 비용을 추정하여 핸드디자인된 특징 없이도 복잡한 로봇 행동을 가능하게 한다.
IOC에서 표현력 있는 비선형 비용 표현(신경망)을 가능하게 하여 정의 부족 문제를 극복한다.
샘플 기반 IOC 및 정책 최적화를 통해 알려지지 않은 다이나믹스와 고차원 상태/행동 공간을 해결한다.
실제 로봇에 실용적으로 배포할 수 있도록 비용과 컨트롤러를 함께 학습함으로써 엔지니어링 부담을 줄인다.

제안 방법

demonstrations가 알려지지 않은 비용 c_theta 하에서 거의 최적에 가깝다는 가정 하에 최대 엔트로피 IOC를 채택한다.
hand-crafted한 특징을 피하기 위해 원시 상태 입력에서 작동하는 신경망으로 c_theta를 표현한다.
분할 함수 Z를 추정하기 위한 중요도 샘플링을 이용한 IOC 목표의 샘플 기반 근사치를 사용한다.
경로 분포 q(tau)를 exp(-c_theta(tau)) 쪽으로 조정하는 정책 최적화 절차와 IOC 최적화를 교차시키며
Demonstration과 경로 샘플을 사용하여 경사하강법으로 비용 매개변수 theta를 업데이트한다.
과적합을 완화하기 위해 비용의 비선형성을 로컬 상수 비율(lcr)과 증가성(mono) 항목으로 정규화한다.
학습된 정책을 구현하는 학습된 시계열 가변 선형-가우시안 컨트롤러 q(u_t|x_t)를 제공한다.

실험 결과

연구 질문

RQ1알려지지 않은 다이나믹스의 IOC 설정에서 표현력 있는 비선형 비용 함수가 시연으로부터 학습될 수 있는가?
RQ2정책 최적화를 통한 적응 샘플링이 IOC 분할 함수의 추정과 최종 비용 품질을 개선하는가?
RQ3핸드 크래프드한 특징 없이 고차원 로봇 시스템 및 실제 토크 제어 태스크를 다룰 수 있는가?
RQ4에피소딕한 로봇 태스크에서 정규화 기법이 일반화와 학습 비용의 과적합 방지에 도움이 되는가?
RQ5새로운 태스크 인스턴스에 대해 고정된 비용을 재사용하기보다 비용과 컨트롤러를 함께 학습하는 것이 유리한가?

주요 결과

이 방법은 Demonstrations로부터 비선형 비용(예: 신경망)을 학습하고, 알려지지 않은 다이나믹스가 있는 시뮬레이션 태스크에서 기존 IOC 방법보다 우수한 성능을 보인다.
Guided cost learning과 정책 최적화를 결합하면 샘플 효율성이 향상되고 7-DOF 암 페그 삽입과 같은 고차원 로봇 태스크를 지원한다.
로컬 상수 비율(lcr)과 증가성(mono) 정규화 항이 과적합을 완화하고 에피소드형 태스크에서 학습 성능을 향상시킨다.
실제 PR2 로봇 태스크에서 비용이 선형(affine)인 경우 실패했던 영역에서도 가이드드 코스트 러닝이 상당한 성공을 보였으며, 시각적 특징을 활용한 접시 배치 및 붓기 작업을 포함한다.
이 방법은 새로운 태스크 인스턴스에서 학습된 비용 함수와 이를 실행하기 위한 컨트롤러를 함께 제공하여 새로운 태스크에 적용하기에 적합하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.