QUICK REVIEW

[논문 리뷰] SemanticFusion: Dense 3D Semantic Mapping with Convolutional Neural Networks

John McCormac, Ankur Handa|arXiv (Cornell University)|2016. 09. 16.

Robotics and Sensor-Based Localization참고 문헌 20인용 수 44

한 줄 요약

SemanticFusion는 RGB-D 영상에서의 2D 세분화 예측을 CNN과 ElasticFusion SLAM 시스템을 이용해 실시간으로 융합하여 밀도 높고 전역적으로 일관된 3D 세분화 지ap을 생성하는 온라인 시스템을 제안한다. 루프 클로징 기능을 갖춘 서페이스 요소 기반 SLAM에서 유도된 다중 시점 대응 관계를 활용함으로써, 특히 시점 변화에 대한 민감도를 감안할 때 2D 세분화 정확도를 향상시키며, 약 25 Hz의 프레임 레이트를 달성하고 NYUv2 및 자체 제작한 사무실 데이터셋에서 뚜렷한 성능 향상을 이룬다.

ABSTRACT

Ever more robust, accurate and detailed mapping using visual sensing has proven to be an enabling factor for mobile robots across a wide variety of applications. For the next level of robot intelligence and intuitive user interaction, maps need extend beyond geometry and appearence - they need to contain semantics. We address this challenge by combining Convolutional Neural Networks (CNNs) and a state of the art dense Simultaneous Localisation and Mapping (SLAM) system, ElasticFusion, which provides long-term dense correspondence between frames of indoor RGB-D video even during loopy scanning trajectories. These correspondences allow the CNN's semantic predictions from multiple view points to be probabilistically fused into a map. This not only produces a useful semantic 3D map, but we also show on the NYUv2 dataset that fusing multiple predictions leads to an improvement even in the 2D semantic labelling over baseline single frame predictions. We also show that for a smaller reconstruction dataset with larger variation in prediction viewpoint, the improvement over single frame segmentation increases. Our system is efficient enough to allow real-time interactive use at frame-rates of approximately 25Hz.

연구 동기 및 목표

모바일 로봇을 위한 풍부한 세분화 레이블을 갖춘 실시간 밀도 높은 3D 세분화 지도 제작을 가능하게 하기 위해.
기하학적 대응 관계를 이용해 다수의 시점에서의 예측을 융합하여 2D 세분화 정확도를 향상시키기 위해.
장기적인 일관성을 유지하기 위해 루프 클로징 기능을 갖춘 서페이스 요소 기반 SLAM 시스템인 ElasticFusion을 활용하기 위해.
SLAM이 3D 세분화 지도 제작을 넘어서 다중 시점 정규화를 통해 2D 세분화 성능을 향상시킬 수 있음을 보여주기 위해.
실내 환경에서 SLAM과 딥러닝의 상호보완적 작용을 통해 더 정확하고 상호작용 가능한 세분화 지도를 구축하는 데 기여하기 위해.

제안 방법

ElasticFusion SLAM 시스템과 사전 학습된 RGB-D CNN을 통합하여 2D에서 3D로의 밀도 높은 대응 관계를 수립한다.
ElasticFusion의 서페이스 요소 기반 표면 표현을 활용해 루프 클로징 및 시점 변화 상황에서도 지속적인 기하학적 및 세분화 연관성을 유지한다.
베이지안 융합 기법을 적용하여 다수의 프레임에서 유도된 세분화 예측을 확률적으로 융합해 단일한 전역적으로 일관된 3D 세분화 지도를 생성한다.
최종 출력의 공간 일관성을 향상시키기 위해 전방향 연결 CRF를 후처리 단계에 적용한다.
실시간 성능와 정확도의 균형을 위해 CNN 추론은 10 프레임마다, CRF 추론은 500 프레임마다 수행한다.
SLAM 시스템에서 유도된 기하학적 일관성을 활용해 세분화 예측을 정규화함으로써, 시점 변화에 대한 저항력을 향상시킨다.

실험 결과

연구 질문

RQ1SLAM에서 유도된 대응 관계를 이용해 다중 시점 세분화 예측을 효과적으로 일관된 3D 세분화 지도로 융합할 수 있는가?
RQ2단일 프레임 기반 기준 대비 다수의 시점에서의 세분화 예측 융합이 2D 세분화 정확도를 향상시키는가?
RQ3시점 변화가 세분화 융합의 성능 향상에 미치는 영향은 어떠한가?
RQ4실시간 상호작용 가능한 시스템이 CNN과 SLAM을 활용해 정확한 3D 재구성과 세분화 레이블링을 동시에 달성할 수 있는가?
RQ5시점 다양성이 제한된 데이터셋과 광범위한 스캔을 포함한 데이터셋에서, SLAM을 통한 세분화 융합 향상 효과는 어느 정도인가?

주요 결과

SemanticFusion는 실시간으로 약 25 Hz의 프레임 레이트를 달성하여 상호작용 가능한 온라인 3D 세분화 지도 제작을 가능하게 한다.
NYUv2 데이터셋에서, 시점 변화가 제한된 상황이지만 다중 시점 융합이 단일 프레임 예측 대비 2D 세분화 정확도를 향상시킨다.
더 큰 시점 변화가 존재하는 자체 제작 사무실 데이터셋에서는 융합에 의한 성능 향상이 더욱 뚜렷하여 다양한 시점의 이점이 입증된다.
SLAM의 활용 덕분에, 큰 루프 클로징가 발생하더라도 세분화 레이블링의 장기적 일관성이 유지된다. 이는 지속적인 서페이스 요소 연관성 덕분이다.
베이지안 융합 기법은 다양한 시점에서의 예측을 효과적으로 융합하여 노이즈를 감소시키고 레이블 신뢰도를 향상시킨다.
CRF 후처리를 통해 공간 일관성이 추가로 향상되지만, 계산 비용이 크기 때문에 현재는 오프라인 또는 희소하게 실시간 모드에서 실행 중이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.