QUICK REVIEW

[논문 리뷰] Benchmarking Classic and Learned Navigation in Complex 3D Environments

Dmytro Mishkin, Alexey Dosovitskiy|arXiv (Cornell University)|2019. 01. 30.

Robotics and Sensor-Based Localization참고 문헌 50인용 수 41

한 줄 요약

본 논문은 다양한 실내 3D 환경에서 고전 모듈식 내비게이션 파이프라인과 학습 기반 에이전트, 인간의 성능을 비교하고, RGB-D가 장착된 고전적 내비게이션이 종종 학습 기반 방법을 능가하는 반면, 학습 기반 내비게이션은 감각 입력이 제한될 때 더 강건하다는 것을 발견하며, 인간은 여전히 두 방법보다 우수하다고 밝혔다.

ABSTRACT

Navigation research is attracting renewed interest with the advent of learning-based methods. However, this new line of work is largely disconnected from well-established classic navigation approaches. In this paper, we take a step towards coordinating these two directions of research. We set up classic and learning-based navigation systems in common simulated environments and thoroughly evaluate them in indoor spaces of varying complexity, with access to different sensory modalities. Additionally, we measure human performance in the same environments. We find that a classic pipeline, when properly tuned, can perform very well in complex cluttered environments. On the other hand, learned systems can operate more robustly with a limited sensor suite. Overall, both approaches are still far from human-level performance.

연구 동기 및 목표

고전 모듈식 내비게이션과 엔드-투-엔드 학습 내비게이션이 복잡한 실내 3D 환경에서 어떻게 작동하는지 평가한다.
각 접근법의 로봇 센서 모듈형성(무센서, RGB, RGB-D) 하에서의 강인성을 평가한다.
벤치마크를 위한 동일한 환경에서 인간 내비게이션 성능을 정량화한다.
혼합(고전+학습) 접근이 두 패러다임의 강점을 활용할 수 있는지 조사한다.

제안 방법

로컬라이제이션에 ORB-SLAM2를 사용하고 D* Lite 플래너를 사용하는 고전 모듈식 내비게이션 파이프라인(매핑, 로컬라이제이션, 계획, 주행)을 구현한다.
Direct Future Prediction(DFP) 및 해석 가능성을 위한 Belief DFP 변형에 기반한 엔드-투-엔드 학습 에이전트와 비교한다.
RGB, RGB-D 및 기타 센서 입력을 사용하여 SUNCG(Empty 및 Furnished) 및 Matterport3D 환경에서 MINOS 시뮬레이터로 평가한다.
가능한 경우 정답 포즈와 맵을 제공하여 서로 다른 정보 체계에서의 성능을 분석한다.
SPL, 성공률, 페이스와 같은 지표로 성능을 측정하고 인간 성능과 비교한다.
고전 파이프라인을 보강하기 위해 RGB 입력을 보강하는 모노큘러 및 스테레오 깊이 추정 방법을 실험한다.

실험 결과

연구 질문

RQ1고전 모듈식 내비게이션 파이프라인은 혼잡한 3D 환경에서 학습 기반 내비게이션 에이전트에 비해 성공률과 효율성 면에서 어떻게 비교되는가?
RQ2센서 모듈( RGB vs. RGB-D )이 각 접근법의 강인성과 성능에 어떤 영향을 미치는가?
RQ3RGB로부터의 깊이 추정이 고전 SLAM 기반 내비게이션을 얼마나 개선할 수 있는가?
RQ4유사한 작업에서 인공 내비게이션 시스템은 인간의 성능에 얼마나 가까워지는가?

주요 결과

RGB-D 입력을 갖춘 고전 파이프라인은 혼잡한 환경에서 일반적으로 학습 접근법보다 우수합니다.
학습 에이전트는 RGB 입력만으로도 고전 RGB 기반보다 더 나은 성능을 보이며, 감각 정보 감소에 대한 강건함을 시사합니다.
깊이 정보는 고전 내비게이션 성능을 크게 향상시키지만, RGB 전용 SLAM은 위치 추정 실패에 취약합니다.
RGB-D 입력과 포즈/맵 정보가 있으면 고전 내비게이션이 더 개선되며, RGB로부터 깊이 추정이 일부 성능 복구를 제공할 수 있습니다.
인간은 모든 환경과 지표에서 두 인공 접근법을 능가하여 자율 내비게이션의 남은 한계를 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.