[논문 리뷰] Air Learning: An AI Research Platform for Algorithm-Hardware Benchmarking of Autonomous Aerial Robots
Air Learning는 자원이 제한된 UAV에서 딥 강화학습 알고리즘을 벤치마킹하기 위한 오픈소스 시뮬레이터이자 강화학습 플랫폼이다. 훈련 중 하드웨어 인 더 루프(latency) 모델링을 통합함으로써 고성능 시스템과 임베디드 시스템 간의 비행 시간 격차를 37.73%에서 0.5%로 감소시켜, 라즈베리 파이와 같은 저전력 플랫폼에서도 정확한 정책 배포를 가능하게 한다.
We introduce Air Learning, an open-source simulator, and a gym environment for deep reinforcement learning research on resource-constrained aerial robots. Equipped with domain randomization, Air Learning exposes a UAV agent to a diverse set of challenging scenarios. We seed the toolset with point-to-point obstacle avoidance tasks in three different environments and Deep Q Networks (DQN) and Proximal Policy Optimization (PPO) trainers. Air Learning assesses the policies' performance under various quality-of-flight (QoF) metrics, such as the energy consumed, endurance, and the average trajectory length, on resource-constrained embedded platforms like a Raspberry Pi. We find that the trajectories on an embedded Ras-Pi are vastly different from those predicted on a high-end desktop system, resulting in up to 40% longer trajectories in one of the environments. To understand the source of such discrepancies, we use Air Learning to artificially degrade high-end desktop performance to mimic what happens on a low-end embedded system. We then propose a mitigation technique that uses the hardware-in-the-loop to determine the latency distribution of running the policy on the target platform (onboard compute on the aerial robot). A randomly sampled latency from the latency distribution is then added as an artificial delay within the training loop. Training the policy with artificial delays allows us to minimize the hardware gap (discrepancy in the flight time metric reduced from 37.73% to 0.5%). Thus, Air Learning with hardware-in-the-loop characterizes those differences and exposes how the onboard compute's choice affects the aerial robot's performance. We also conduct reliability studies to assess the effect of sensor failures on the learned policies. All put together, Air Learning enables a broad class of deep RL research on UAVs. The source code is available at:this http URL.
연구 동기 및 목표
- 고성능 데스크톱 훈련과 임베디드 UAV 플랫폼에 대한 실제 구현 간의 성능 격차를 해소하기 위해.
- 자원이 제한된 항공 로봇에서 딥 강화학습 정책의 현실적인 벤치마킹을 가능하게 하기 위해.
- 궤적 길이 및 에너지 소비와 같은 비행 성능 지표의 격차를 정량화하고 완화하기 위해.
- 센서 고장 및 하드웨어 제약 조건이 학습된 정책에 미치는 영향을 연구하기 위해.
- 자율 항공 로봇 분야에서 알고리즘-하드웨어 공동 설계를 위한 재현 가능하고 오픈소스 플랫폼을 제공하기 위해.
제안 방법
- 플랫폼은 도메인 랜덤라이제이션을 사용하여 UAV 에이전트가 다양한 도전적인 환경에서 훈련하도록 한다.
- Raspi와 같은 대상 임베디드 플랫폼에서 정책을 실행할 때의 지연 분포를 캡처하기 위해 하드웨어 인 더 루프 접근 방식을 통합한다.
- 실제 차량 내 계산 제약 조건을 시뮬레이션하기 위해 측정된 지연 분포에서 샘플링한 인위적 지연을 훈련 루프에 삽입한다.
- 에너지 소비, 항속 시간, 평균 궤적 길이와 같은 비행 품질 지표를 사용하여 성능을 평가한다.
- 신뢰성 연구를 통해 시뮬레이션된 센서 고장 상황에서 정책의 강건성을 평가하여 실제 구현에서의 내구성을 향상시킨다.
실험 결과
연구 질문
- RQ1고성능 시스템에서 훈련된 딥 강화학습 정책이 라즈베리 파이와 같은 저전력 임베디드 플랫폼에 배포되었을 때 성능에 어떤 차이가 있는가?
- RQ2UAV에서 시뮬레이션과 실제 구현 간 성능 격차를 줄이기 위해 훈련 중 인위적 지연 주입을 얼마나 효과적으로 적용할 수 있는가?
- RQ3계산 지연과 같은 하드웨어 제약 조건이 궤적 길이 및 에너지 소비와 같은 핵심 비행 품질 지표에 어떤 영향을 미치는가?
- RQ4센서 고장은 자율 UAV 항법에서 학습된 정책의 강건성에 어떤 영향을 미치는가?
- RQ5도메인 랜덤라이제이션이 다양한 도전적인 UAV 환경에서 정책 일반화 능력을 향상시키는 데 어떤 역할을 하는가?
주요 결과
- 임베디드 라즈베리 파이 플랫폼에서 생성된 궤적은 고성능 데스크톱 시스템에서의 궤적보다 최대 40% 더 길었으며, 이는 심각한 하드웨어 격차를 시사한다.
- 대상 플랫폼의 지연 분포에서 유도된 인위적 지연 주입 훈련을 통해 비행 시간 지표에서의 하드웨어 격차가 37.73%에서 0.5%로 감소하였다.
- 훈련 중 하드웨어 인 더 루프 지연 모델링을 사용함으로써 정책의 임베디드 시스템 이행성이 크게 향상되었다.
- 도메인 랜덤라이제이션을 사용해 훈련한 정책는 다양한 환경 변화에 대해 향상된 강건성을 보였다.
- 센서 고장 연구 결과, 학습된 정책는 부분적인 센서 손상 상황에서도 항법 성능을 유지할 수 있었으며, 실제 구현에서의 신뢰성을 향상시켰다.
- 이 플랫폼은 현실적인 하드웨어 및 환경 제약 조건 하에서 UAV에서 RL 알고리즘의 정확하고 재현 가능한 벤치마킹을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.