QUICK REVIEW

[논문 리뷰] Unsupervised Learning of Dense Optical Flow and Depth from Sparse Event Data.

Chengxi Ye, Anton Mitrokhin|arXiv (Cornell University)|2018. 09. 23.

CCD and CMOS Imaging Sensors인용 수 29

한 줄 요약

이 논문은 150만 개의 파rameter만을 사용하여 희박한 이벤트 데이터에서 조밀한 깊이, 광학 흐름, 이동 운동을 추정하는 경량의 자기지도 학습 신경망(ECN)을 제안한다. MVSEC 데이터셋에서 훈련된 모델은 단일 GPU에서 250 FPS로 실시간 추론을 구현하며, 낮과 밤 조건에서 모두 뛰어난 성능을 보이며 기존 방법보다 이벤트 기반 깊이 및 흐름 추정에서 최고 성능을 기록한다.

ABSTRACT

In this work we present a lightweight, unsupervised learning pipeline for extit{dense} depth, optical flow and egomotion estimation from sparse event output of the Dynamic Vision Sensor (DVS). To tackle this low level vision task, we use a novel encoder-decoder neural network architecture - ECN. Our work is the first monocular pipeline that generates dense depth and optical flow from sparse event data only. The network works in self-supervised mode and has just 150k parameters. We evaluate our pipeline on the MVSEC self driving dataset and present results for depth, optical flow and and egomotion estimation. Due to the lightweight design, the inference part of the network runs at 250 FPS on a single GPU, making the pipeline ready for realtime robotics applications. Our experiments demonstrate significant improvements upon previous works that used deep learning on event data, as well as the ability of our pipeline to perform well during both day and night.

연구 동기 및 목표

희박한 이벤트 데이터에서 조밀한 깊이 및 광학 흐름을 추정하는 문제에 도전하며, 이는 이전 연구에서 다루지 않은 분야이다.
라벨이 없는 데이터나 다중 센서 설정에 의존하지 않는 단일 카메라, 자기지도 학습 파이프라인을 개발한다.
실시간 로봇 응용에 적합한 계산 효율적인 아키텍처를 설계한다.
낮과 밤 조건을 포함한 다양한 조명 조건에서도 견고한 성능을 확보한다.
오직 이벤트 데이터만을 사용하여 이벤트 기반 깊이 및 광학 흐름 추정에서 최고 성능를 달성한다.

제안 방법

깊이, 광학 흐름, 이동 운동의 동시 추정을 위한 새로운 인코더-디코더 신경망 아키텍처인 ECN(Event-based Convolutional Network)을 도입한다.
예측 프레임과 진짜 프레임 간의 재구성 오차를 최소화하기 위해 광학 일致성 손실을 사용하여 자기지도 학습 방식으로 네트워크를 훈련시킨다.
RGB 프레임이 필요 없이 다이내믹 비전 센서(DVS)에서 생성된 희박한 이벤트 데이터를 입력으로 사용한다.
단일 경량 네트워크 내에서 깊이, 광학 흐름, 이동 운동 예측을 동시에 최적화하기 위한 다중 작업 학습 설정을 구현한다.
이미지 재구성 손실을 사용하여 광학 흐름 및 깊이 예측을 위해 가역적인 워핑 레이어를 구현한다.
매우 적은 파rameter 수(150만 개)로 백프로파게이션을 최적화하여 실시간 추론 능력을 확보한다.

실험 결과

연구 질문

RQ1희박한 이벤트 데이터에서 단일 경량 신경망이 자기지도 학습 방식으로 조밀한 깊이, 광학 흐름, 이동 운동을 동시에 추정할 수 있는가?
RQ2제안된 ECN 아키텍처는 기존의 딥 러닝 방법에 비해 정확도와 효율성 측면에서 어떤 성능을 보이는가?
RQ3오직 이벤트 데이터만을 사용할 때 모델이 낮과 밤과 같은 다양한 조도 조건에서 얼마나 잘 일반화되는가?
RQ4네트워크의 추론 속도는 얼마이며, 로봇 응용 분야에서 실시간 처리를 지원할 수 있는가?
RQ5광학 일치를 기반으로 한 자기지도 학습이 라벨이 없는 환경에서 신뢰할 수 있는 깊이 및 흐름 예측을 유도하는가?

주요 결과

제안된 ECN 네트워크는 단일 GPU에서 250 FPS로 실시간 추론을 달성하여 실시간 로봇 응용에 적합하다.
이벤트 데이터 기반 깊이 및 광학 흐름 추정에서 이전의 딥 러닝 접근법에 비해 상당한 성능 향상을 보였다.
낮은 조도 조건, 특히 야간 환경에서도 고품질의 조밀한 깊이 및 광학 흐름 예측을 생성한다.
자기지도 학습 전략이 라벨이 없는 데이터에서 의미 있는 표현을 효과적으로 학습한다.
단지 150만 개의 파arameter만을 사용하는 경량 아키텍처는 MVSEC 벤치마크에서 경쟁력 있는 정확도를 유지하면서도 효율적인 배포를 가능하게 한다.
다양한 조도 조건에서 잘 일반화되며, 조도 변화에 대해 뛰어난 견고성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.