QUICK REVIEW

[論文レビュー] HMS-Net: Hierarchical Multi-scale Sparsity-invariant Network for Sparse Depth Completion

Huang, Zixuan, Fan, Junming|arXiv (Cornell University)|Aug 27, 2018

Advanced Vision and Imaging参考文献 46被引用数 13

ひとこと要約

HMS-Netは、スパarsityに不変な3つの新規操作—スパarsityに不変なアップサンプリング、平均、および畳み込みを伴う連結—を備えた階層的マルチスケールエンコーダーデコーダーネットワークを提案する。この手法は、KITTおよびNYU-depth-v2ベンチマークで最先端の性能を達成し、RGBフリーの手法では1位、RGBガイド付き手法ではKITTで2位を記録した。

ABSTRACT

Dense depth cues are important and have wide applications in various computer vision tasks. In autonomous driving, LIDAR sensors are adopted to acquire depth measurements around the vehicle to perceive the surrounding environments. However, depth maps obtained by LIDAR are generally sparse because of its hardware limitation. The task of depth completion attracts increasing attention, which aims at generating a dense depth map from an input sparse depth map. To effectively utilize multi-scale features, we propose three novel sparsity-invariant operations, based on which, a sparsity-invariant multi-scale encoder-decoder network (HMS-Net) for handling sparse inputs and sparse feature maps is also proposed. Additional RGB features could be incorporated to further improve the depth completion performance. Our extensive experiments and component analysis on two public benchmarks, KITTI depth completion benchmark and NYU-depth-v2 dataset, demonstrate the effectiveness of the proposed approach. As of Aug. 12th, 2018, on KITTI depth completion leaderboard, our proposed model without RGB guidance ranks first among all peer-reviewed methods without using RGB information, and our model with RGB guidance ranks second among all RGB-guided methods.

研究の動機と目的

自動運転およびロボット工学におけるLIDAR入力からの密度の高い深度マップの生成という課題に取り組む。
従来のCNNおよび先行するスパarsityに不変な畳み込みの限界を克服し、空間解像度を損なわず、マルチスケール特徴を効果的に統合できない問題を解決する。
スパarsityマスクを保持し、エンコーダーデコーダー構造における効果的なマルチスケール特徴統合を可能にする新しい操作を設計する。
RGB特徴を統合してガイドすることで深度補完の精度を向上させつつ、入力のスパarsityおよびノイズに強く保つ。
多様な不正やスパarsityレベル下で、公開ベンチマークにおいて優れた性能と耐性を示すことを実証する。

提案手法

スパarsityに不変な3つの操作を提案：スパarsityに不変なアップサンプリング、スパarsityに不変な平均、畳み込みを伴うスパarsityに不変な連結。
各レイヤーでスパarsityマスクを用い、非ゼロ特徴の位置を追跡し、前方および逆伝播をガイドする。
スキップ接続を通じて低レベルおよび高レベル特徴を統合する階層的マルチスケールエンコーダーデコーダーネットワーク（HMS-Net）を設計する。
RGB特徴をモダリティ固有のブランチを介して統合し、本ネットワーク本体にRGBを依存させずに深度補完を向上させる。
バッチ正規化およびマックスプーリング層を適用し、極めてスパースな入力における訓練の安定化と特徴学習の向上を図る。
KITTおよびNYU-depth-v2でL1およびL2損失を用いてエンドツーエンドで学習し、ガウスノイズおよびランダムなポイントドロップアウトを含むデータ拡張を実施する。

実験結果

リサーチクエスチョン

RQ1スパarsityに不変な操作は、スパース深度補完のためのエンコーダーデコーダーネットワークにおける効果的なマルチスケール特徴統合を可能にするか？
RQ2提案されたHMS-Netアーキテクチャは、従来のCNNおよび先行するスパarsityに不変なモデルと比較して、精度および耐性面で優れているか？
RQ3スパースLIDAR入力と組み合わせたRGB特徴は、深度補完性能をどの程度向上させるか？
RQ4本手法は、入力スパarsityおよびセンサーノイズ（例：ガウスノイズ、オクルージョン）のさまざまなレベルに対してどの程度耐性を示すか？
RQ5スパarsityに配慮した操作を備えた階層的マルチスケール設計は、境界の保存性を向上させ、アーチファクトを低減するか？

主な発見

KITT深度補完ベンチマークにおいて、RGBガイドなしのHMS-Netは、すべてのpeer-reviewed RGBフリー手法の中で最高の性能を達成し、1位となった。
2018年8月12日現在、KITTのリーダーボードにおいてRGBガイド付きのHMS-Netは、すべてのRGBガイド付き手法で2位を記録した。
NYU-depth-v2データセットでは、全テストスパarsityレベル（N = 20, 50, 200）で、比較手法すべてより低いRMSEおよびRELを達成した。N=200のとき、RMSEは0.233、RELは0.044であった。
シーンレベルおよび領域レベルのガウスノイズ、およびランダムなポイントドロップアウトに対して、スパースコンボリューション（SparseConvs）およびIP-Basicを上回る優れた耐性を示した。
入力深度点の90％までが削除されても、依然として高い性能を維持したため、極度のスパarsityに対しても強い耐性を示した。
構成要因のアブレーション実験により、提案されたスパarsityに不変な操作およびマルチスケールエンコーダーデコーダー構造が、特に物体境界の保存およびノイズ低減において性能向上に不可欠であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。