QUICK REVIEW

[논문 리뷰] Online Deep Reinforcement Learning for Autonomous UAV Navigation and Exploration of Outdoor Environments

Bruna G. Maciel-Pearson, Letizia Marchegiani|arXiv (Cornell University)|2019. 12. 11.

Robotics and Sensor-Based Localization참고 문헌 41인용 수 24

한 줄 요약

이 논문은 원시 RGB 이미지와 국소적 위치 지도를 조합한 이중 입력 상태를 사용하여 실외 환경에서 자율적인 드론 항법 및 탐색을 위한 확장형 더블 딥 Q-네트워크(EDDQN)를 제안한다. 이 방법은 미리 보지 않은 지형과 심한 기상 조건에서도 강력한 일반화 성능을 보이며, 기준 DQN, DDQN, DRQN 모델보다 단계 효율성과 누적 보상에서 뛰어나며, 30분 이내 비행 제한 조건 하에서 시뮬레이션 드론에 실시간으로 구현에 성공했다.

ABSTRACT

With the rapidly growing expansion in the use of UAVs, the ability to autonomously navigate in varying environments and weather conditions remains a highly desirable but as-of-yet unsolved challenge. In this work, we use Deep Reinforcement Learning to continuously improve the learning and understanding of a UAV agent while exploring a partially observable environment, which simulates the challenges faced in a real-life scenario. Our innovative approach uses a double state-input strategy that combines the acquired knowledge from the raw image and a map containing positional information. This positional data aids the network understanding of where the UAV has been and how far it is from the target position, while the feature map from the current scene highlights cluttered areas that are to be avoided. Our approach is extensively tested using variants of Deep Q-Network adapted to cope with double state input data. Further, we demonstrate that by altering the reward and the Q-value function, the agent is capable of consistently outperforming the adapted Deep Q-Network, Double Deep Q- Network and Deep Recurrent Q-Network. Our results demonstrate that our proposed Extended Double Deep Q-Network (EDDQN) approach is capable of navigating through multiple unseen environments and under severe weather conditions.

연구 동기 및 목표

모르는, 동적인, 악조건의 실외 환경에서의 자율 드론 항법 문제를 해결하기 위해, 특히 구조 및 구류(SAR) 임무를 대상으로 한다.
재학습이나 도메인 전용 데이터 없이도 숲, 농경지, 사바나와 같은 새로운 도메인 간의 일반화를 향상시키기 위해 노력한다.
순환 신경망을 대체하여 경량 피드포워드 아키텍처를 도입함으로써 계산 부담을 감소시키고 차량 내 장착 구현을 가능하게 한다.
시각적 인식과 위치 기억을 융합하여 장애물 회피 및 최단 경로 계획을 향상시켜 항법 효율성을 높인다.
오프라인 재학습 없이도 여러 비행에 걸쳐 지속적인 온라인 학습을 통해 성능을 향상시킬 수 있도록 한다.

제안 방법

EDDQN 에이전트는 드론 카메라에서 온 원시 RGB 이미지(84×84)와 위치 역사 및 장애물 위치를 인코딩한 100×100 국소 지도로 구성된 이중 상태 입력을 사용한다.
네트워크 아키텍처는 더블링 딥 Q-네트워크(DDQN)의 확장으로, 시각적 입력과 지도 입력을 별도의 스트림 헤드로 처리한 후 공유 Q-값 헤드로 통합한다.
탐색을 우선시하고(미방문 영역 방문에 보상 증가), 중복된 단계와 충돌에 대해 벌점을 주는 새로운 보상 형상화 함수를 설계하였다.
과도한 추정 편향을 줄이기 위해 더블 Q-러닝 기반 최적화를 사용하여 학습 중 정책 안정성을 향상시켰다.
경험 재생과 타겟 네트워크 업데이트를 통한 온라인 학습을 통해, 여러 비행과 환경에 걸쳐 지속적인 적응이 가능하도록 하였다.
카메라 내부 매개변수나 지상 진위 데이터에 의존하지 않아, 카메라 해상도나 탑재 장비에 관계없이 다양한 드론 플랫폼에 구현 가능하다.

실험 결과

연구 질문

RQ1재학습 없이도 숲, 농경지, 사바나와 같은 새로운 실외 환경에 대해 딥 강화 학습 에이전트가 일반화할 수 있는가?
RQ2원시 시각 입력과 국소 지도를 융합함으로써 부분 관측 환경에서 항법 성능이 향상되고 단계 수가 감소하는가?
RQ3악천후 조건 하에서 표준 DQN, DDQN, DRQN 모델에 비해 제안된 EDDQN 접근법이 누적 보상과 경로 효율성 측면에서 뛰어나게 되는가?
RQ4이중 입력 아키텍처가 DRQN과 같은 순환 모델에 비해 계산 부담을 얼마나 줄이며, 차량 내 장착을 가능하게 하는가?
RQ5시야 내에서 움직이는 동물과 같은 동적인 요소를 통과할 때 에이전트가 높은 성능을 유지할 수 있는가?

주요 결과

중설과 dense 안개 조건 하에서 새로운 숲 환경에서 EDDQN은 평균 7.5단계/에피소드를 기록하여, DRQN*100(8.2단계)과 DQN*(7.35단계)보다 단계 효율성이 뛰어났다.
이동하는 동물이 있는 사바나 환경에서 EDDQN은 장애물 충돌률 0%를 기록했고, 평균 임무 시간은 안정적인 13.34분을 유지했다. 반면 DRQN*1000는 완전히 실패했다.
테스트 V에서 EDDQN 모델은 누적 보상 평균 0.5079를 기록하여 DRQN*100(0.2573)보다 높게, 재방문보다 탐색을 선호하는 경향을 보였다.
특징 입력 크기를 28,224(84×84×4)에서 7,156(84×84 + 100)로 감소시켜 계산 부담을 크게 낮추고 실시간 차량 내 추론을 가능하게 하였다.
다양한 기상 조건과 새로운 도메인을 포함한 여덟 가지 테스트 시나리오 전반에서 일관된 성능을 보였으며, 성능 저하 없이 안정성을 유지했다.
EDDQN은 평균적으로 30분 이내에 전체 임무를 완료하여 상용 드론의 배터리 제약 조건을 충족시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.