QUICK REVIEW

[논문 리뷰] Unsupervised Learning of Dense Optical Flow, Depth and Egomotion from Sparse Event Data

Chengxi Ye, Anton Mitrokhin|arXiv (Cornell University)|2018. 09. 23.

Anomaly Detection Techniques and Applications참고 문헌 31인용 수 31

한 줄 요약

이 논문은 단일 동적 시각 센서(DVS)에서 희박한 이벤트 데이터로부터 조밀한 광학 흐름, 깊이, 자가 운동을 동시에 추정하는 경량이며 비지도 학습 신경망인 ECN을 제안한다. 이 모델은 오직 150만 개의 가중치만을 사용하며, 250 FPS의 실시간 추론 성능을 달성하고, 저조도 및 야간 조건에서도 뛰어난 일반화 성능을 보이며, MVSEC 데이터셋에서 깊이, 흐름, 자가 운동 추정 성능에서 이전 방법들을 능가한다.

ABSTRACT

In this work we present a lightweight, unsupervised learning pipeline for extit{dense} depth, optical flow and egomotion estimation from sparse event output of the Dynamic Vision Sensor (DVS). To tackle this low level vision task, we use a novel encoder-decoder neural network architecture - ECN. Our work is the first monocular pipeline that generates dense depth and optical flow from sparse event data only. The network works in self-supervised mode and has just 150k parameters. We evaluate our pipeline on the MVSEC self driving dataset and present results for depth, optical flow and and egomotion estimation. Due to the lightweight design, the inference part of the network runs at 250 FPS on a single GPU, making the pipeline ready for realtime robotics applications. Our experiments demonstrate significant improvements upon previous works that used deep learning on event data, as well as the ability of our pipeline to perform well during both day and night.

연구 동기 및 목표

희박한 이벤트 데이터로부터 조밀한 깊이, 광학 흐름, 자가 운동 추정을 위한 가벼운 비지도 학습 신경망을 개발하는 것.
다중 카메라 설정에 의존하지 않고 DVS 데이터의 희박성, 노이즈, 낮은 공간 해상도 문제를 해결하는 것.
로봇 및 자율 주행 응용 분야에 적합한 실시간 추론을 가능하게 하는 것.
기존 센서가 실패하는 조건에서의 저조도 및 야간 조건에 대한 일반화 성능을 향상시키는 것.
이벤트 데이터에서 더 나은 특징 학습을 위해 새로운 이벤트 표현 방식과 정규화 기법을 도입하는 것.

제안 방법

150만 개의 가중치를 가진 새로운 인코더-디코더 아키텍처인 균일하게 연결된 네트워크(ECN)를 제안하여 엔드 투 엔드 비지도 학습을 수행한다.
시간 이미지와 픽셀별 양/음성 이벤트 수를 포함한 3채널 이벤트 표현을 사용하며, 타임스탬프의 평균화를 통해 노이즈를 감소시킨다.
다중 시간 이벤트 슬라이스를 입력으로 사용하여 3차원 구조를 유지하고 자가 운동 추정 성능을 향상시킨다.
학습 안정성과 추론 품질 향상을 위해 새로운 정규화 기법인 특징 비상관화(Feature Decorrelation)를 도입한다.
지름길 없는 지오메트릭 일致성 손실을 활용한 자기지도 학습을 통해 깊이, 흐름, 자가 운동을 추정하며, 진짜 레이블이 필요하지 않다.
희박한 데이터를 다루고 객체 경계를 유지하기 위해 부드러움 및 경계 인식 정규화를 적용한다.

실험 결과

연구 질문

RQ1단일 카메라 기반 비지도 딥 러닝 파이프라인은 희박한 이벤트 데이터로부터 조밀한 깊이와 광학 흐름을 회복할 수 있는가?
RQ2이러한 파이프라인은 저조도 및 야간 주행 시나리오에 효과적으로 일반화될 수 있는가?
RQ3오직 150만 개의 가중치만을 가진 경량 네트워크가 로봇 응용에 적합한 실시간 성능을 달성할 수 있는가?
RQ4제안된 특징 비상관화 정규화 기법은 기존 배치 정규화 대비 학습 및 추론 성능을 어떻게 향상시키는가?
RQ5다중 슬라이스 이벤트 입력은 단일 프레임 표현 대비 3차원 구조 및 자가 운동 추정 성능을 향상시키는가?

주요 결과

ECN 모델은 '외부 일광 1' 시퀀스에서 ARPE 3.98°와 ARRE 0.00267을 기록하며, SfMlearner(16.99°와 0.00916) 및 Zhu18(7.74°와 0.00867)을 크게 능가한다.
'외부 야간 1' 시퀀스에서는 ARPE 1.00°와 ARRE 0.00139를 기록하여, 단지 일광 시퀀스에서만 훈련된 모델임에도 불구하고 저조도 조건에서 뛰어난 일반화 성능을 입증한다.
단일 GPU에서 250 FPS로 실행되어 실시간 로봇 응용에 적합하다.
제거 실험을 통해 특징 비상관화 기법이 학습 시간을 단축시키고 추론 품질을 향상시킴을 확인하였다.
희박한 이벤트 조건에서도 명확한 객체 윤곽을 보여 주며, 저이벤트 레이트의 야간 환경에서조차 조밀한 깊이와 흐름을 성공적으로 재구성하였다.
'외부 일광 1'에서 AEE_tr^depth는 1.29 m/s, '외부 야간 1'에서는 1.26 m/s를 기록하여 척도 모호성에 대해 강건하고 깊이 기반 정규화에서 양호한 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.