QUICK REVIEW

[논문 리뷰] Data Efficient Reinforcement Learning for Legged Robots

Yuxiang Yang, Ken Caluwaerts|arXiv (Cornell University)|2019. 07. 08.

Robotic Locomotion and Control참고 문헌 29인용 수 28

한 줄 요약

이 논문은 모델 기반 강화 학습 프레임워크를 제안하여 사각형 보행 로봇이 오직 4.5분의 실세계 데이터만으로도 견고하고 빠른 보행을 학습할 수 있도록 한다. 이는 최신의 모델 자유형 방법보다 한 단계 이상 더 높은 샘플 효율성을 확보한다. 장기적인 동역학 모델링을 위해 다단계 손실을 적용하고, 지연 보정이 된 모델 예측 제어(MPC), 궤적 생성기 기반의 행동 정규화를 통해 시스템은 안정적인 이동을 달성하며, 재학습 없이 보상 함수 변경만으로도 새로운 작업으로 일반화된다.

ABSTRACT

We present a model-based framework for robot locomotion that achieves walking based on only 4.5 minutes (45,000 control steps) of data collected on a quadruped robot. To accurately model the robot's dynamics over a long horizon, we introduce a loss function that tracks the model's prediction over multiple timesteps. We adapt model predictive control to account for planning latency, which allows the learned model to be used for real time control. Additionally, to ensure safe exploration during model learning, we embed prior knowledge of leg trajectories into the action space. The resulting system achieves fast and robust locomotion. Unlike model-free methods, which optimize for a particular task, our planner can use the same learned dynamics for various tasks, simply by changing the reward function. To the best of our knowledge, our approach is more than an order of magnitude more sample efficient than current model-free methods.

연구 동기 및 목표

모델 자유형 강화 학습을 통한 다리 달린 로봇 보행 정책 학습의 높은 샘플 및 하드웨어 비용 문제를 해결하기 위해.
정확한 장기 예측 동역학 모델링을 활용한 모델 기반 계획을 통해 실세계 로봇 학습의 샘플 효율성을 향상시키기 위해.
계획 지연을 고려한 실시간 제어를 가능하게 하여 고주기 제어 빈도에서 성능을 유지하기 위해.
행동 공간에 다리 궤적에 대한 사전 지식를 통합하여 모델 학습 중 안전한 탐색을 보장하기 위해.
재학습 없이도 동일한 학습된 동역학 모델을 다양한 보행 작업에 재사용할 수 있도록 하기 위해.

제안 방법

장기 예측 정확도를 향상시키기 위해 다단계 손실 함수를 도입하여, 여러 타임스텝에 걸친 모델 오차를 추적함으로써 계획 과정에서의 오차 누적을 감소시킨다.
계획 지연을 보완하기 위해 미래 상태를 예측한 상태에서 계획을 수행함으로써 모델 예측 제어(MPC)를 수정하여 고주기 제어 빈도에서 실시간 성능을 달성한다.
실시간 제약 조건 하에서 행동 시퀀스 최적화를 효율적으로 수행하기 위해 GPU 가속 기반의 샘플링 기반 CEM(Cross-Entropy Method) 계획기를 사용한다.
부드럽고 주기적인 다리 운동을 강제하고 탐색 중 기계적 스트레스를 방지하기 위해 행동 공간에 궤적 생성기(TG)를 통합한다.
수집된 모든 궤적의 리PLAY 버퍼를 사용하여 동역학 모델을 주기적으로 재학습함으로써 학습과 배포 간의 분포 이탈을 줄인다.
데이터 수집과 모델 학습을 반복하는 방식으로, 최소한의 데이터로도 지속적인 향상을 가능하게 한다.

실험 결과

연구 질문

RQ1모델 기반 강화 학습 프레임워크는 모델 자유형 방법보다 훨씬 적은 실세계 데이터 샘플로 견고한 다리 달린 보행을 달성할 수 있는가?
RQ2장기 예측에서의 모델 부정확성을 어떻게 완화할 수 있을까? 이는 동적이고 접촉이 빈번한 환경에서 MPC 기반 제어의 신뢰성을 확보하기 위함이다.
RQ3실시간 제어 시스템에서 계획 지연을 보완하기 위해 어떤 기법을 사용할 수 있는가? 이는 고주기 성능을 유지하기 위함이다.
RQ4로봇 하드웨어 손상 없이 모델 학습 중 안전한 탐색을 어떻게 달성할 수 있는가?
RQ5동일한 학습된 동역학 모델이 재학습 없이도 여러 보행 작업으로 일반화될 수 있는가?

주요 결과

제안된 방법은 Minitaur 사각형 로봇에서 오직 36개의 롤아웃(4.5분의 실세계 데이터)만으로도 안정적이고 빠른 보행을 달성하였으며, 동일 하드웨어에서 최신 모델 자유형 방법 대비 샘플 효율성에서 10배 향상되었다.
다단계 손실 함수는 장기 예측 정확도를 크게 향상시켰으며, 손실에 포함된 타임스텝 수가 많을수록 모델이 진짜 궤적을 더 정확히 따라간다.
지연 보정이 된 MPC는 고속 주행에서 성능을 유지할 수 있도록 하였으며, 이방식을 사용하지 않으면 0.4 m/s 이상의 속도를 추적하지 못한다.
행동 공간에 궤적 생성기를 사용함으로써 더 부드럽고 주기적인 모터 동작이 가능해졌으며, TG를 생략했을 경우 탐색 중 하드웨어 손상이 발생한 바 있다.
학습된 동역학 모델은 재학습 없이 새로운 작업으로 일반화된다. 보상 함수만 변경함으로써 새로운 보행 패tern을 도출할 수 있었으며, 강력한 작업 이관 능력을 입증하였다.
절단 실험 결과, CEM는 최소 5회의 반복과 중간 정도의 스무딩(γ = 0.5)이 최적 성능을 내기 위해 필요하며, 450ms의 계획 수평이 장기 수익과 모델 오차 민감도 사이의 최적 균형을 이룬다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.