QUICK REVIEW

[논문 리뷰] Combining Optimal Control and Learning for Visual Navigation in Novel Environments

Somil Bansal, Varun Tolani|arXiv (Cornell University)|2019. 03. 06.

Robotic Path Planning Algorithms인용 수 96

한 줄 요약

LB-WayPtNav은 웨이포인트를 예측하는 학습 기반 인지 모듈과 모델 기반 플래너 및 LQR 기반 트래킹을 결합하여 알려지지 않은 실내 환경에서 항해하고, 시뮬레이션 및 실제 로봇 테스트에서 엔드-투-엔드 학습과 순수 기하학적 맵핑을 능가합니다.

ABSTRACT

Model-based control is a popular paradigm for robot navigation because it can leverage a known dynamics model to efficiently plan robust robot trajectories. However, it is challenging to use model-based methods in settings where the environment is a priori unknown and can only be observed partially through on-board sensors on the robot. In this work, we address this short-coming by coupling model-based control with learning-based perception. The learning-based perception module produces a series of waypoints that guide the robot to the goal via a collision-free path. These waypoints are used by a model-based planner to generate a smooth and dynamically feasible trajectory that is executed on the physical system using feedback control. Our experiments in simulated real-world cluttered environments and on an actual ground vehicle demonstrate that the proposed approach can reach goal locations more reliably and efficiently in novel environments as compared to purely geometric mapping-based or end-to-end learning-based alternatives. Our approach does not rely on detailed explicit 3D maps of the environment, works well with low frame rates, and generalizes well from simulation to the real world. Videos describing our approach and experiments are available on the project website.

연구 동기 및 목표

알고리즘 3D 맵이 명시적으로 필요하지 않은_unknown, 혼잡한 실내 환경에서 자율 주행을 촉진합니다.
학습을 이용해 충돌 없이 도달 지점인 웨이포인트를 예측하고 모델 기반 제어를 이용해 실행 가능한 궤적을 생성하는 하이브리드 프레임워크를 제안합니다.
시뮬레이션에서 실제 로봇으로의 일반화 및 순수 학습 기반 또는 맵 기반 기준선보다 우수한 성능을 보여줍니다.

제안 방법

인지 모듈: CNN은 온보드 RGB 이미지 I_t, 현재 속도 u_t, 로봇 좌표의 목표 p_t*에서 다음 웨이포인트를 예측합니다.
계획: 현재 상태에서 예측된 웨이포인트까지의 매끄러운 x,y 궤적을 생성하기 위해 3차 스플라인을 적합시켜 동적 실행 가능성을 보장합니다.
트래킹: LQR 제어기가 스플라인 궤적 주위의 역학을 선형화하여 horizon H 동안 실행을 위한 선전 및 피드백 항을 생성합니다.
학습: 학습 중에 알려진 맵에서 도출된 최적 웨이포인트를 사용해 인지 학습을 감독하여 실제 라벨링 없이 제로샷 테스트 타임 성능을 가능하게 합니다.
평가: 시뮬레이션 및 TurtleBot 2 하드웨어 플랫폼에서 엔드-투-엔드 학습 및 기하 매핑 접근법과 비교합니다.

실험 결과

연구 질문

RQ1새로운 혼잡한 실내 환경에서 인지 구동 웨이포인트 예측기가 모델 기반 계획과 결합되어 신뢰할 수 있는 탐색을 달성할 수 있는가?
RQ2하이브리드 LB-WayPtNav가 성공률, 속도 및 궤적 매끄러움 측면에서 엔드-투-엔드 학습 및 맵 기반 계획과 어떻게 비교되는가?
RQ3시뮬레이션에서 실제 하드웨어로의 일반화가 실제 세계 미세 조정 없이 가능한가?
RQ4스플라인 기반 계획 및 LQR 트래킹이 제어의 매끄러움과 교란에 대한 강인성에 미치는 영향은 무엇인가?

주요 결과

에이전트	입력	성공률 (%)	소요 시간 (s)	가속도 (m/s^2)	가속도 변화율 (m/s^3)
전문가	전체 맵	100	10.78 ±2.64	0.11 ±0.03	0.36 ±0.14
LB-WayPtNav (우리의)	RGB	80.65	11.52 ±3.00	0.10 ±0.04	0.39 ±0.16
End To End	RGB	58.06	19.16 ±10.45	0.23 ±0.02	8.07 ±0.94
Mapping (memoryless)	Depth	86.56	10.96 ±2.74	0.11 ±0.03	0.36 ±0.14
Mapping	Depth + Spatial Memory	97.85	10.95 ±2.75	0.11 ±0.03	0.36 ±0.14

LB-WayPtNav는 시뮬레이션 및 하드웨어 테스트에서 엔드-투-엔드 학습보다 더 높은 성공률과 더 빠른 목표 도착 시간을 달성합니다.
이 방법은 순수 엔드-투-엔드 정책에 비해 가속도와 가속 변화율이 더 낮아 궤적을 더 부드럽게 생성합니다.
시뮬레이션에서 LB-WayPtNav은 메모리 없는 깊이 기반 맵핑 기준선보다 우수하며, 깊이가 완벽할 때 깊이 기반 맵핑 성능에 근접합니다.
이 접근법은 시뮬레이션에서 실제 로봇으로의 일반화를 최소한의 도메인 차이로 달성하며 테스트 중 명시적 3D 맵이 필요하지 않습니다.
인지 학습은 알려진 맵에서 도출된 최적 웨이포인트를 사용하여 인간 라벨링 없이도 감독 학습이 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.