QUICK REVIEW

[논문 리뷰] How to Train your Quadrotor: A Framework for Consistently Smooth and Responsive Flight Control via Reinforcement Learning

Siddharth Mysore, Bassel Mabsout|arXiv (Cornell University)|2020. 12. 11.

Reinforcement Learning in Robotics참고 문헌 42인용 수 14

한 줄 요약

이 논문은 보조 제어 신호와 상태 표현을 재설계함으로써 보조 제어 정책의 부드러움과 실제 환경로 이식 가능성(transferability)을 향상시키는 강화학습 프레임워크인 RE+AL을 소개한다. 곱셈형 보상 조합과 RC 명령어 유사 훈련 신호를 사용함으로써 RE+AL은 모터 제어 진동 주파수를 330Hz에서 130Hz로 감소시키고, 100% 비행 가능한 에이전트를 구현하며, 실제 하드웨어에서 튜닝된 PID 제어기보다 추적 정확도와 에너지 효율성에서 뛰어난 성능을 보였다.

ABSTRACT

We focus on the problem of reliably training Reinforcement Learning (RL) models (agents) for stable low-level control in embedded systems and test our methods on a high-performance, custom-built quadrotor platform. A common but often under-studied problem in developing RL agents for continuous control is that the control policies developed are not always smooth. This lack of smoothness can be a major problem when learning controllers %intended for deployment on real hardware as it can result in control instability and hardware failure. Issues of noisy control are further accentuated when training RL agents in simulation due to simulators ultimately being imperfect representations of reality - what is known as the reality gap. To combat issues of instability in RL agents, we propose a systematic framework, `REinforcement-based transferable Agents through Learning' (RE+AL), for designing simulated training environments which preserve the quality of trained agents when transferred to real platforms. RE+AL is an evolution of the Neuroflight infrastructure detailed in technical reports prepared by members of our research group. Neuroflight is a state-of-the-art framework for training RL agents for low-level attitude control. RE+AL improves and completes Neuroflight by solving a number of important limitations that hindered the deployment of Neuroflight to real hardware. We benchmark RE+AL on the NF1 racing quadrotor developed as part of Neuroflight. We demonstrate that RE+AL significantly mitigates the previously observed issues of smoothness in RL agents. Additionally, RE+AL is shown to consistently train agents that are flight-capable and with minimal degradation in controller quality upon transfer. RE+AL agents also learn to perform better than a tuned PID controller, with better tracking errors, smoother control and reduced power consumption.

연구 동기 및 목표

모의 환경에서부터 실제 하드웨어로의 이식이 안정적이지 않고, 비부드러운 제어 정책이 지속적으로 발생하는 RL 기반 드론 제어의 문제를 해결하기 위해.
모의 환경을 실제 동적 특성과 제어 행동을 더 잘 반영하도록 설계하여 현실 갭(Reality Gap)을 줄이기 위해.
수동 튜닝 없이도 항상 비행 가능한, 낮은 진동을 보이는 제어기를 일관되게 생성할 수 있는 체계적이고 반복 가능한 훈련 파이프라인을 개발하기 위해.
RE+AL로 훈련된 RL 에이전트가 실제 비행 성능 지표인 추적 오차와 전력 소비에서 전통적인 PID 제어기보다 뛰어난 성능을 보일 수 있음을 입증하기 위해.

제안 방법

학습 분산을 줄이고 정책 일관성을 향상시키기 위해 진전, 부드러움, 제어 노력 페널티를 조합하는 곱셈형 보상 조합을 설계한다.
실제 RC 제어 입력을 더 잘 반영하도록 상태 공간을 재구성하여 정책이 조종사 유사 제어 행동과 더 잘 일치하도록 한다.
실제 RC 명령어를 모방하는 훈련 신호를 구성하여 시뮬레이션과 실제 제어 동역학 간의 정밀도를 향상시킨다.
과적합을 방지하고 이식 가능성을 유지하기 위해 훈련 중 조기 정지(early stopping)를 도입한다.
SAC와 PPO 알고리즘을 사용하여 새로운 보상과 상태 설계를 적용해 NF1 드론 플랫폼에서 에이전트를 훈련시킨다.
시뮬레이션, 훈련, 펌웨어 컴파일을 통합한 전체 스택 파이프라인을 구현하여 임베디드 하드웨어에 직접 배포할 수 있도록 한다.

실험 결과

연구 질문

RQ1다시 설계된 보상 구조는 모의 환경에서 실제 하드웨어로의 이식 가능성을 높이고 제어 정책의 부드러움을 크게 향상시킬 수 있는가?
RQ2곱셈형 보상 조합은 학습 분산을 줄이고 다양한 RL 알고리즘 간에 더 일관된 정책 학습을 이끌어낼 수 있는가?
RQ3상태 공간과 행동 표현 설계는 시뮬레이션 제어 행동과 실제 RC 조종사 입력 간의 일치도를 어느 정도 향상시킬 수 있는가?
RQ4이 프레임워크로 훈련된 RL 에이전트는 실제 비행 성능에서 튜닝된 전통적 PID 제어기보다 뛰어난 성능을 보일 수 있는가?
RQ5모의 환경에서의 장기적 훈련은 이식 성능을 떨어뜨리는가? 만약 그렇다면, 조기 정지는 이를 어떻게 완화할 수 있는가?

주요 결과

RE+AL은 이전의 Neuroflight 기준 대비 실제 NF1 드론에서 100% 비행 가능한 에이전트를 달성했으며, 이는 기존 기준에서 30명 중 1명에 불과한 성과였다.
RE+AL로 훈련된 모터 제어 신호는 피크 진동 주파수 130Hz를 보였고, 이는 기존 기준 방법에서 관측된 330Hz보다 크게 감소한 결과였다.
RE+AL 에이전트의 평균 추적 오차는 4.2 deg/s로 실제 비행에서 높은 제어 정밀도를 입증했다.
새로운 보상 설계 덕분에 수렴 속도가 빨라 훈련 시간이 거의 9시간에서 50분 이내로 10배 감소했다.
RE+AL 에이전트는 추적 오차와 전력 소비 모두에서 튜닝된 PID 제어기보다 뛰어난 성능을 보였으며, 더 부드러운 제어 신호를 생성했다.
곱셈형 보상 조합은 학습 분산을 일관되게 줄였고, 특히 Acrobot과 같은 도전적인 환경에서 국소 최적점 회피에 도움을 주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.