QUICK REVIEW

[논문 리뷰] Learning to Fly via Deep Model-Based Reinforcement Learning

Philip Becker-Ehmck, Maximilian Karl|arXiv (Cornell University)|2020. 03. 19.

Reinforcement Learning in Robotics참고 문헌 59인용 수 24

한 줄 요약

이 논문은 학습된 잠재 동역학 모델을 사용하여 원시 센서 데이터에서만 훈련된 모델 기반 강화학습 접근법을 제안한다. 이는 30분 이내의 실제 세계 경험만으로도 엔드 투 엔드 비행 제어를 가능하게 한다. 이 방법은 미분 가능한 확률적 궤적 롤아웃과 라즈베리 파이에서의 온라인 추론을 사용하여, 물리학 지식이나 외부 시뮬레이터 없이 실시간 제어를 달성한다.

ABSTRACT

Learning to control robots without requiring engineered models has been a long-term goal, promising diverse and novel applications. Yet, reinforcement learning has only achieved limited impact on real-time robot control due to its high demand of real-world interactions. In this work, by leveraging a learnt probabilistic model of drone dynamics, we learn a thrust-attitude controller for a quadrotor through model-based reinforcement learning. No prior knowledge of the flight dynamics is assumed; instead, a sequential latent variable model, used generatively and as an online filter, is learnt from raw sensory input. The controller and value function are optimised entirely by propagating stochastic analytic gradients through generated latent trajectories. We show that "learning to fly" can be achieved with less than 30 minutes of experience with a single drone, and can be deployed solely using onboard computational resources and sensors, on a self-built drone.

연구 동기 및 목표

드론의 동역학이나 공학적 시뮬레이터에 대한 사전 지식 없이도 엔드 투 엔드로 큼지막한 드론 제어기를 훈련시키는 것.
학습된 동역학 모델을 활용해 실시간 롤아웃의 양을 줄이고 데이터 효율적인 정책 최적화를 달성하는 것.
모델 추론과 정책 실행을 포함한 전체 제어 파이프라인을 원격 센서 입력만을 사용해 저비용 임베디드 시스템(Raspberry Pi 4)에 통합하는 것.
학습된 시뮬레이터에서 훈련된 제어기가 부분적이고 노이즈가 있는 관측값을 가진 실제 비행 환경에서도 일반화 가능한지 입증하는 것.
원시 센서 시퀀스에서 직접 학습된 동역학 모델을 통해 시뮬레이션에서 현실로의 격차를 줄이고, 수작업으로 설계된 시뮬레이터가 필요 없도록 하는 것.

제안 방법

원시 센서 관측값(예: IMU, GPS)에서부터 라즈베리 파이 4에 배포된 실시간 제어를 가능하게 하는 저차원 잠재 공간에서 드론의 동역학을 표현하는 변동형 추론 기반의 잠재 상태공간 모델(LSSM)을 원시 데이터에서 종단 간 훈련한다.
학습된 동역학 모델은 미분 가능하며, 재구성 기법을 사용해 확률적 변수를 통해 역전파할 수 있도록 하여 정책 최적화를 위한 확률적 궤적을 생성한다.
정책과 가치 함수는 학습된 동역학 모델과 잠재 궤적을 통해 전파되는 확률적 분석 기반 기울기를 사용하여 훈련된다.
온라인 추론 네트워크(필터)는 조건부 사후 분포를 사용해 관측값에서 현재 잠재 상태를 추정하여 드론에서 실시간 상태 추정을 가능하게 한다.
학습된 모델에서의 롤아웃을 사용하고 잠재 상태에서 보상 구조를 형성함으로써, 다양한 기법(예: SAC 또는 PPO 유사)을 사용해 정책을 훈련한다.
모든 구성 요소—동역학 모델, 추론 네트워크, 정책, 가치 함수—는 딥 네트워크로 구현되며, 확률적 경사 하강법을 사용해 공동 최적화된다.

실험 결과

연구 질문

RQ1드론이 동역학이나 물리학에 대한 사전 지식 없이 원시 센서 데이터만으로 목표 지점으로 비행하도록 훈련시킬 수 있는가?
RQ2학습된 잠재 동역학 모델이 실시간 제어를 위한 데이터 효율성 향상에 얼마나 효과적인가? 특히 실제 세계 상호작용을 최소화하면서도 실현 가능한가?
RQ3학습된 시뮬레이터에서 훈련된 모델 기반 강화학습 정책이 시뮬레이션에서 현실로의 전이에 대해 도메인 랜덤라이제이션 또는 미세 조정 없이 일반화 가능한가?
RQ4저전력 임베디드 시스템(예: Raspberry Pi 4)에서 전체 모델 기반 제어 파이프라인을 실행할 경우 계산 및 메모리 오버헤드는 어느 정도인가?
RQ5다양한 기계적 제어 시스템에서 수작업으로 설계된 시뮬레이터가 필요 없도록, 종단 간으로 학습된 동역학 모델이 어떻게 효과적으로 대체할 수 있는가?

주요 결과

단일 드론에서 25,000개의 모델 스텝(약 30분의 실제 비행에 해당)만으로도 제어기가 성공적으로 훈련되었으며, 높은 데이터 효율성을 입증했다.
모델 추론, 추론 네트워크, 정책를 포함한 전체 제어 파이프라인이 실시간으로 라즈베리 파이 4에 배포되고 실행되었다.
완전한 상태 관측값이나 드론의 동역학에 대한 사전 지식 없이도 원시 IMU 및 GPS 데이터만으로 안정적이고 목표 향한 비행을 달성했다.
학습된 잠재 동역학 모델은 노이즈가 많고 부분적인 관측값에서도 정확한 상태 추정을 가능하게 하여 강건한 온라인 제어를 지원했다.
모델 자유 기반 기준선보다 샘플 효율성이 뛰어나고, 아키텍처 변경 없이도 다양한 드론 구성에 대해 일반화 성능을 보였다.
학습된 모델을 통해 전파되는 확률적 분석 기반 기울기를 사용함으로써, 보상 형상화나 도메인 랜덤라이제이션에 의존하지 않고 효과적인 정책 최적화를 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.