QUICK REVIEW

[論文レビュー] Unsupervised Learning of Dense Optical Flow and Depth from Sparse Event Data.

Chengxi Ye, Anton Mitrokhin|arXiv (Cornell University)|Sep 23, 2018

CCD and CMOS Imaging Sensors被引用数 29

ひとこと要約

本論文では、MVSECデータセットで訓練された軽量で自己教師ありニューラルネットワーク（ECN）を提案する。このモデルは150kパラメータのみで、スパースなイベントデータから密集した深度、オプティカルフロー、エゴモーションを推定する。250 FPSのリアルタイム推論を達成し、昼間および夜間の両方の条件下で優れた性能を示し、従来の手法を上回る性能を発揮する。

ABSTRACT

In this work we present a lightweight, unsupervised learning pipeline for extit{dense} depth, optical flow and egomotion estimation from sparse event output of the Dynamic Vision Sensor (DVS). To tackle this low level vision task, we use a novel encoder-decoder neural network architecture - ECN. Our work is the first monocular pipeline that generates dense depth and optical flow from sparse event data only. The network works in self-supervised mode and has just 150k parameters. We evaluate our pipeline on the MVSEC self driving dataset and present results for depth, optical flow and and egomotion estimation. Due to the lightweight design, the inference part of the network runs at 250 FPS on a single GPU, making the pipeline ready for realtime robotics applications. Our experiments demonstrate significant improvements upon previous works that used deep learning on event data, as well as the ability of our pipeline to perform well during both day and night.

研究の動機と目的

スパースなイベントデータからの密集した深度およびオプティカルフロー推定という、従来の研究で未だあまり検討されていない課題に取り組む。
ラベル付きデータやマルチセンサーセットアップに依存しないモノクローラルで自己教師ありの学習パイプラインを開発する。
リアルタイムのロボティクスアプリケーションに適した計算効率の高いアーキテクチャを設計する。
昼間および夜間のさまざまな照明条件においても、強力な性能を発揮することを可能にする。
RGBフレームを一切使用せず、イベントデータのみを用いて、イベントベースの深度およびフロー推定で最先端の結果を達成する。

提案手法

深度、オプティカルフロー、エゴモーションの同時推定を目的とした、ECN（イベントベース畳み込みネットワーク）と名付けた新規エンコーダデコーダ型ニューラルネットワークアーキテクチャを導入する。
予測フレームと真値フレームの間の再構成誤差を最小化するため、光度的一致性損失を用いて自己教師ありでネットワークを訓練する。
RGBフレームを必要とせず、ダイナミックビジョンセンサ（DVS）からのスパースなイベントデータを入力として使用する。
1つの軽量ネットワーク内で深度、オプティカルフロー、エゴモーション予測を同時に最適化するためのマルチタスク学習設定を採用する。
画像再構成損失を用いて、オプティカルフローおよび深度予測を可微分なワーピングレイヤーで監視する。
バックプロパゲーションを用いて最適化し、パrameter数をわずか150kに抑えることで、リアルタイム推論の実現を可能にする。

実験結果

リサーチクエスチョン

RQ11つの軽量ニューラルネットワークが、自己教師ありの方法でスパースなイベントデータから、密集した深度、オプティカルフロー、エゴモーションを同時に推定できるか？
RQ2提案されたECNアーキテクチャは、従来のディープラーニング手法と比較して、イベントデータの推定精度および効率性においてどの程度優れているか？
RQ3イベントデータのみを用いて、昼間および夜間のようなさまざまな照明条件下での一般化性能はどの程度達成できるか？
RQ4ネットワークの推論速度はどの程度で、ロボティクス分野のリアルタイムアプリケーションをサポートできるか？
RQ5光度的一致性を用いた自己教師あり学習は、真値ラベルがなくても、信頼性の高い深度およびフロー予測を学習できるか？

主な発見

提案されたECNネットワークは、1つのGPUで250 FPSのリアルタイム推論を達成し、リアルタイムのロボティクスアプリケーションに適している。
本モデルは、イベントデータに対する従来のディープラーニング手法と比較して、深度およびオプティカルフロー推定の両面で顕著な性能向上を示している。
本パイプラインは、夜間を含む低照度条件でも、高品質な密集した深度およびオプティカルフロー予測を生成している。
自己教師ありの学習戦略は、ラベル付きデータを必要とせず、スパースなイベントデータから意味のある表現を効果的に学習している。
わずか150kパラメータの軽量アーキテクチャは、MVSECベンチマークで競争力のある精度を維持しながら、効率的なデプロイを可能にしている。
本ネットワークは、照明条件の変化に対しても強く、多様な照明条件下での一般化性能が優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。