Skip to main content
QUICK REVIEW

[논문 리뷰] Preparing for the Unknown: Learning a Universal Policy with Online System Identification

Wenhao Yu, Jie Tan|arXiv (Cornell University)|2017. 02. 08.
Reinforcement Learning in Robotics참고 문헌 27인용 수 43
한 줄 요약

이 논문은 알려지지 않은 동적 환경에서 강건한 강화학습을 가능하게 하기 위해 보편 정책과 온라인 시스템 식별을 조합한 제어 프레임워크 UP-OSI를 제안한다. 시뮬레이션 데이터를 사용해 다양한 동적 특성에 민감한 정책을 훈련시키고 실시간으로 모델 파라미터를 동적으로 추정함으로써, UP-OSI는 예측되지 않은 동적 특성 조건에서도 뛰어난 성능을 달성하며, 외삽된 설정에서는 진정한 모델 지식을 가진 정책보다도 슈퍼리어한 성능을 보인다.

ABSTRACT

We present a new method of learning control policies that successfully operate under unknown dynamic models. We create such policies by leveraging a large number of training examples that are generated using a physical simulator. Our system is made of two components: a Universal Policy (UP) and a function for Online System Identification (OSI). We describe our control policy as universal because it is trained over a wide array of dynamic models. These variations in the dynamic model may include differences in mass and inertia of the robots' components, variable friction coefficients, or unknown mass of an object to be manipulated. By training the Universal Policy with this variation, the control policy is prepared for a wider array of possible conditions when executed in an unknown environment. The second part of our system uses the recent state and action history of the system to predict the dynamics model parameters mu. The value of mu from the Online System Identification is then provided as input to the control policy (along with the system state). Together, UP-OSI is a robust control policy that can be used across a wide range of dynamic models, and that is also responsive to sudden changes in the environment. We have evaluated the performance of this system on a variety of tasks, including the problem of cart-pole swing-up, the double inverted pendulum, locomotion of a hopper, and block-throwing of a manipulator. UP-OSI is effective at these tasks across a wide range of dynamic models. Moreover, when tested with dynamic models outside of the training range, UP-OSI outperforms the Universal Policy alone, even when UP is given the actual value of the model dynamics. In addition to the benefits of creating more robust controllers, UP-OSI also holds out promise of narrowing the Reality Gap between simulated and real physical systems.

연구 동기 및 목표

  • 시뮬레이션과 실제 로봇 제어 사이의 현실 격차를 줄이기 위해 정책이 알려지지 않은 동적 모델 간에 일반화할 수 있도록 하는 것.
  • 실제 세계 데이터 수집의 높은 비용을 줄이기 위해 대규모 물리 시뮬레이션을 활용해 오프라인 훈련을 수행하는 것.
  • 질량, 마찰계수, 물체 관성 등 변화하거나 알려지지 않은 시스템 파라미터에 실시간으로 적응할 수 있는 제어 정책을 개발하는 것.
  • 감독학습 및 강화학습 구성 요소를 사용해 시스템 식별과 정책 학습을 분리함으로써 샘플 효율성과 강건성을 향상시키는 것.
  • 훈련 분포를 초월하는 동적 모델 파라미터에 대해 일반화할 수 있도록 하고, 외삽 능력을 입증하는 것.

제안 방법

  • 정책이 상태와 동적 모델 파라미터 μ를 모두 입력으로 받는 보편 정책(UP)을 다양한 시뮬레이션된 동적 모델 세트에서 딥 강화학습을 사용해 훈련한다.
  • 최근 상태와 동작 기록의 역사 정보를 사용해 실시간으로 μ를 추정하는 온라인 시스템 식별(OSI) 모듈을 구현하며, 이는 시뮬레이션된 데이터에서 감독학습을 통해 훈련된다.
  • OSI가 각 타임스텝에서 μ를 예측하고 이를 정책에 피드백하여 행동 선택을 수행하는 방식으로 UP와 OSI를 통합한 통합 프레임워크(UP-OSI)를 구성한다.
  • 시간적 상태-행동 역사 정보를 처리하기 위해 OSI에 순환형 또는 순차적 모델을 사용하여 운동 시퀀스에서 동적 모델을 추정할 수 있도록 한다.
  • 정확성과 추론 속도의 균형을 맞추기 위해 OSI를 제한된 반복 수(예: 다섯 번)로 훈련시켜 실시간 적용 가능성을 확보한다.
  • 학습 과정을 분리한다: UP는 강화학습을 통해, OSI는 시뮬레이션 트레이젝터리에서 감독학습을 통해 훈련함으로써 샘플 효율성을 향상시킨다.

실험 결과

연구 질문

  • RQ1오직 시뮬레이션 데이터만을 사용해도 단일 제어 정책이 다양한 알려지지 않은 동적 모델에 대해 일반화할 수 있는가?
  • RQ2상태-행동 역사 정보에서 실시간으로 동적 모델 파라미터(예: 질량, 마찰계수 등)를 정확하게 추정할 수 있는가?
  • RQ3보편 정책과 온라인 시스템 식별의 조합이 예측되지 않은 동적 영역에서 진정한 모델 파라미터를 알고 있는 보편 정책보다 성능이 뛰어나게 되는가?
  • RQ4훈련 분포를 초월하는 동적 모델 파라미터에 대해 시스템이 일반화할 수 있으며, 만약 그렇다면 이러한 경우에 왜 베이스라인보다 성능이 뛰어나게 되는가?
  • RQ5실제 세계의 피니팅 없이 UP-OSI는 시뮬레이션과 실제 로봇 제어 사이의 현실 격차를 어느 정도 줄일 수 있는가?

주요 결과

  • UP-OSI는 훈련 분포 내에서 진정한 모델 파라미터를 제공받는 보편 정책(UP-true)과 비교해 성능이 유사함을 입증하며, 효과적인 온라인 모델 추정 능력을 보였다.
  • 훈련 범위 외의 동적 영역에서는 UP-OSI가 UP-true 기반의 베이스라인보다 뚜렷이 뛰어난 성능을 보이며, 강력한 일반화 및 외삽 능력을 입증했다.
  • 지속적으로 μ의 추정치를 갱신함으로써 시간에 따라 변화하는 동적 특성(예: 마찰계수 변화)이 있는 환경에서도 강건성과 적응성을 유지했다.
  • OSI 모듈은 4차원 공간(예: 카트폴 시스템)에서 모델 파라미터를 성공적으로 식별하여 중간 차원의 파arameterization에 대해 실현 가능성을 보였다.
  • 분리된 설계—감독학습을 통한 시스템 식별과 강화학습을 통한 정책 학습—은 샘플 효율성을 향상시키며, 엔드 투 엔드 훈련보다 빠른 수렴을 가능하게 했다.
  • 동적 파라미터 추정을 통한 행동 조절 능력은 환경 변화에 따라 제어 전략을 적응적으로 전환하거나 융합할 수 있음을 시사하며, UP-OSI가 다양한 정책 간의 유연한 전환을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.