QUICK REVIEW

[論文レビュー] STS: Surround-view Temporal Stereo for Multi-view 3D Detection

Zengran Wang, Chen Min|arXiv (Cornell University)|Aug 22, 2022

Advanced Vision and Imaging被引用数 26

ひとこと要約

STSは周辺ビュー時系列ステレオを導入し、クロスカメラと時系列幾何を活用して深度推定を向上させ、nuScenesでのマルチビュー3D検出の精度を高める。

ABSTRACT

Learning accurate depth is essential to multi-view 3D object detection. Recent approaches mainly learn depth from monocular images, which confront inherent difficulties due to the ill-posed nature of monocular depth learning. Instead of using a sole monocular depth method, in this work, we propose a novel Surround-view Temporal Stereo (STS) technique that leverages the geometry correspondence between frames across time to facilitate accurate depth learning. Specifically, we regard the field of views from all cameras around the ego vehicle as a unified view, namely surroundview, and conduct temporal stereo matching on it. The resulting geometrical correspondence between different frames from STS is utilized and combined with the monocular depth to yield final depth prediction. Comprehensive experiments on nuScenes show that STS greatly boosts 3D detection ability, notably for medium and long distance objects. On BEVDepth with ResNet-50 backbone, STS improves mAP and NDS by 2.6% and 1.4%, respectively. Consistent improvements are observed when using a larger backbone and a larger image resolution, demonstrating its effectiveness

研究の動機と目的

モノクロ深度だけに依存せず、マルチビュー3D検出のための深度推定の改善を動機づける。
時間とカメラ間の幾何を活用して、周辺ビューの時系列ステレオフレームワーク（STS）を構築する。
SID深度サンプリングを組み込み、近距離点と遠距離点をより適切にサンプリングする。
質感の乏しい領域や動く物体に対して堅牢な密な深度推定を得るため、STS深度をモノクロ深度と融合する。

提案手法

参照位置ごとに深度仮説を生成し、すべてのカメラ間で微分可能なホモグラフィを用いて履歴フレームの特徴をワープする。
ワープ済みソース特徴と参照特徴の間でグループ間相関を用いて軽量なコストボリュームを構築する。
Spacing-Increasing Discretization(SID)を用いて深度空間で深度仮説を非一様にサンプリングする。
STS深度とモノクロ深度を要素ごとの和で結合し、続いてsoftmaxを適用して最終的な深度分布を得る。
テクスチャが乏しい領域や動く物体を処理するため、モノクロ深度モジュールを維持し、補完的な深度融合を可能にする。

実験結果

リサーチクエスチョン

RQ1周辺ビュー時系列ステレオ（STS）は、モノクロ深度だけを超えてマルチビュー3D検出の深度学習を改善できるか？
RQ2クロスカメラの時系列対応とSIDサンプリングは、深度精度およびBEVベースの検出性能にどう影響するか？
RQ3STS深度とモノクロ深度を融合した場合、さまざまな距離範囲とシーンで全体の検出指標にどのような影響を与えるか？

主な発見

方法	解像度	mAP ↑	mATE ↓	mASE ↓	mAOE ↓	mAVE ↓	mAAE ↓	NDS ↑
BEVDepth	ResNet-50	0.351	0.639	0.267	0.479	0.428	0.198	0.475
Ours	ResNet-50	0.377	0.601	0.275	0.450	0.446	0.212	0.489
BEVDepth	ResNet-50	0.405	0.570	0.266	0.383	0.368	0.206	0.523
Ours	ResNet-50	0.425	0.532	0.267	0.390	0.369	0.212	0.536
BEVDepth	ConvNeXt	0.462	0.540	0.254	0.353	0.379	0.200	0.558
Ours	ConvNeXt	0.473	0.515	0.259	0.320	0.366	0.197	0.571

STSはnuScenes BEVDepthベースラインで有意な利得をもたらし、構成全体でmAPとNDSを向上させる。
ResNet-50と256x704入力で、STSはBEVDepthよりmAPを2.6%、NDSを1.4%向上させる。
512x1408解像度でResNet-50の場合、STSはmAPを0.425、NDSを0.536に増加させる（BEVDepthの0.405/0.523と比較）。
ConvNeXtバックボーンで512x1408を使用すると、STSはmAP0.473、NDS0.571を達成（BEVDepth0.462、0.558と比較）。
アブレーションにより、周辺ビューが必須である（1.1%のmAP利得）とSIDがSTSの性能を高めることが示され、中距離・長距離物体で特に顕著。
深度融合（STS＋モノクロ）は単独のいずれのモジュールよりも優れており、mAPとNDSで顕著な向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。