QUICK REVIEW

[논문 리뷰] Autonomous UAV Navigation Using Reinforcement Learning

Huy Xuan Pham, Hung Manh La|arXiv (Cornell University)|2018. 01. 16.

Reinforcement Learning in Robotics참고 문헌 18인용 수 48

한 줄 요약

논문은 PID 보조 Q-학습 프레임워크를 통해 UAV가 discretized 상태 공간에서 정책을 학습하여 미지의 환경을 탐색하도록 하며, 시뮬레이션(5x5 그리드) 및 AR Drone 2.0을 이용한 실내 현장 비행으로 입증된다.

ABSTRACT

Unmanned aerial vehicles (UAV) are commonly used for missions in unknown environments, where an exact mathematical model of the environment may not be available. This paper provides a framework for using reinforcement learning to allow the UAV to navigate successfully in such environments. We conducted our simulation and real implementation to show how the UAVs can successfully learn to navigate through an unknown environment. Technical aspects regarding to applying reinforcement learning algorithm to a UAV system and UAV flight control were also addressed. This will enable continuing research using a UAV with learning capabilities in more important applications, such as wildfire monitoring, or search and rescue missions.

연구 동기 및 목표

지 predefined 지도나 모델 없이 미지의 환경에서 UAV의 내비게이션 동기를 제시한다.
Q-학습을 이용한 강화학습 프레임워크를 제안하여 내비게이션 정책을 학습한다.
본 접근법의 시뮬레이션 및 실세계 구현을 쿼드로터에 적용하여 보여준다.
학습된 행동을 안정적인 UAV 모션으로 변환하기 위해 PID 제어기를 통합한다.

제안 방법

환경을 고정 고도에서 그리드 중심 원의 유한한 이산 상태 공간으로 모델링한다.
탭형 Q-테이블을 사용한 Q-학습으로 상태-행동 값을 학습하고 탐색/탐욕적 정책을 위한 에플실론-그리디를 적용한다.
네 가지 이산 측면 행동(North, West, South, East)을 정의하고 목표에 도달하면 보상 100, 다른 상태는 -1인 보상 체계를 정의한다.
현재 상태에서 다음 상태로 UAV를 구동하고 거리 d(조정 결과에서 0.3 m) 이내에서 호버링하도록 PID 제어기를 통합한다.
학습된 정책을 저수준 위치 제어기와 간단히 결합하여 UAV의 비선형 동역학을 다룬다.

실험 결과

연구 질문

RQ1UAV가 미지의 환경에서 임의의 시작 위치에서 predefined 목표로 Q-학습을 통해 탐색하는 것을 학습할 수 있는가?
RQ2PID 제어기를 통합하면 실 UAV에서 학습된 행동을 실행할 때 안정성과 정밀도가 향상되는가?
RQ3시뮬레이션 및 실제 하드웨어에서 최적 경로로 수렴하는 데 몇 개의 에피소드가 필요한가?
RQ4이산화된 2-D 환경에서 학습된 정책의 성능(경로 길이, 수렴성)이 이상적인 최단 경로에 비해 어떤가?

주요 결과

시뮬레이션에서 UAV는 시작점에서 목표점까지 최단 경로가 8단계인 최적 경로를 39개의 에피소드에서 학습한다.
실제 하드웨어에서 AR Drone 2.0은 목표까지의 최적의 8단계 경로를 발견하는 데 38개의 에피소드가 필요하다.
PID 게인을 조정한 후 UAV가 목표로부터 반경 0.3 m 이내에서 호버링 정확도를 달성한다.
학습 설정은 목표 도달 시 +100, 그 외에는 -1의 보상을 사용하여 효율적인 탐색을 유도한다.
실제 구현에서 사용된 PID 게인은 Kp=0.8, Kd=0.9, Ki=0으로 호버 안정화 및 과도 진동 감소를 목표로 한다.
마지막 에피소드의 궤적은 최종 실행에서 가능한 최단 경로를 통해 목표에 도달하는 UAV를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.