QUICK REVIEW

[논문 리뷰] Policy Transfer with Strategy Optimization

Wenhao Yu, C. Karen Liu|arXiv (Cornell University)|2018. 10. 12.

Reinforcement Learning in Robotics참고 문헌 25인용 수 47

한 줄 요약

SO-CMA는 dynamics로 매개변수화된 정책의 가족을 학습하고, 대상 환경에서 CMA-ES를 사용해 최적의 전략을 탐색함으로써 큰 다이나믹스 간격에서도 견고한 시뮬레이션-현실 전이를 가능하게 한다.

ABSTRACT

Computer simulation provides an automatic and safe way for training robotic control policies to achieve complex tasks such as locomotion. However, a policy trained in simulation usually does not transfer directly to the real hardware due to the differences between the two environments. Transfer learning using domain randomization is a promising approach, but it usually assumes that the target environment is close to the distribution of the training environments, thus relying heavily on accurate system identification. In this paper, we present a different approach that leverages domain randomization for transferring control policies to unknown environments. The key idea that, instead of learning a single policy in the simulation, we simultaneously learn a family of policies that exhibit different behaviors. When tested in the target environment, we directly search for the best policy in the family based on the task performance, without the need to identify the dynamic parameters. We evaluate our method on five simulated robotic control problems with different discrepancies in the training and testing environment and demonstrate that our method can overcome larger modeling errors compared to training a robust policy or an adaptive policy.

연구 동기 및 목표

시뮬레이션에서 학습된 로봇 제어 정책을 다이나믹스 차이가 큰 미지의 실제 환경과 유사한 환경으로 전이시키려는 동기를 제시한다.
작업 성능에 기반해 다이나믹 매개변수를 직접 최적화함으로써 명시적 시스템 식별을 피하는 두 단계 방법을 개발한다.
지연(latency), 구동기 모델링, 변형 가능한 엔드 이펙터 등 다양한 리얼리즘 격차에 대한 견고함을 여러 보행 작업에 걸쳐 시연한다.
한정된 대상 환경 샘플에서도 일관된 전이 성능을 보이도록 견고, 적응형, UPOSI 기반선과의 비교를 수행한다.

제안 방법

관찰 및 다이나믹 매개변수 mu에 조건화된 단일 신경망 정책을 학습하여 다양한 다이나믹스를 커버하는 정책 가족 pi_mu를 생성한다.
롤아웃 도중 미리 정의된 공간에서 mu를 무작위로 샘플하고 롤아웃 동안 이를 고정해 mu에 연결된 전략을 만든다.
각 인스턴스화된 정책 pi_mu를 하나의 전략으로 간주하고 mu로 매개변수화된 연속 정책 가족을 형성한다.
대상 환경에서 mu 공간에 대해 CMA-ES를 사용해 목표 작업 보상 J_Mt(pi_mu)를 최대화하여 mu*를 최적화한다.
이전 연구와 같이 무작위 다이나믹스로 기본 정책을 훈련하기 위해 PPO를 사용하여 간결하고 연속적인 전략 표현을 가능하게 한다.
대상 환경에서 롤아웃으로 후보 전략을 평가하고 적합도(fitness)를 계산하여 CMA-ES 업데이트를 유도한다.

실험 결과

연구 질문

RQ1대상 다이나믹스가 학습 다이나믹스와 크게 다를 때 매개변수화된 정책 가족에 대한 전략 최적화가 견고/적응형/UPOSI 기반선보다 더 나은 전이를 이끌어내는가?
RQ2무작위화된 다이나믹스 공간의 차원수 dim(mu)가 대상 도메인에서의 전이 성능과 샘플 효율성에 어떤 영향을 미치는가?
RQ3희소 보상 조건에서 대상 환경의 다이나믹 매개변수를 탐색하는 데 CMA-ES가 효과적인 최적화 알고자인가?
RQ4SO-CMA가 시뮬레이션-현실 전이 중 어떤 유형의 실제 환경과 유사한 차이(지연, 구동기 모델링, 변형 가능한 엔드 이펙터 등)를 처리할 수 있는가?

주요 결과

SO-CMA는 제한된 대상 샘플에서 여러 전이 시나리오에 걸쳐 일관되게 기초 방법(Robust, Hist, UPOSI)을 능가한다.
dim(mu)를 증가시키면 기준 방법이 고전하는 상황에서 더 나은 전이가 가능하고 CMA-ES 기반 전략 최적화가 강한 최종 성능을 달성한다.
SO-CMA는 지연 및 구동기 모델링 차이와 같은 큰 모델링 오차에도 불구하고 정책을 전이하는 데 성공하며, 견고하거나 적응형 정책이 실패하는 경우가 있어도.
희소 보상 상황에서 CMA-ES 기반 전략 탐색은 여전히 효과적이며, 일부 기저선들은 미세한 조정을 위해 밀집 보상을 필요로 한다.
이 방법은 강체에서 변형 가능한 엔드 이펙터로의 전이도 시연하여 도전적인 전이 과제에서의 다재다능함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.