[論文レビュー] Differentiable Registration of Images and LiDAR Point Clouds with VoxelPoint-to-Pixel Matching
この論文は VoxelPoint-to-Pixel Matching を導入し、差分可能な PnP ソルバーを用いて姿勢予測を監督する、エンドツーエンドの画像-to-point-cloud 登録のための構造化クロスモダリティ潜在空間を学習する。ボクセルとポイントで3Dデータを表現し、ピクセル-to-ボクセル/ポイント対応をトリプレットネットワークで学習し、KITTIとnuScenesで最先端の結果を高い効率性で達成する。
Cross-modality registration between 2D images from cameras and 3D point clouds from LiDARs is a crucial task in computer vision and robotic. Previous methods estimate 2D-3D correspondences by matching point and pixel patterns learned by neural networks, and use Perspective-n-Points (PnP) to estimate rigid transformation during post-processing. However, these methods struggle to map points and pixels to a shared latent space robustly since points and pixels have very different characteristics with patterns learned in different manners (MLP and CNN), and they also fail to construct supervision directly on the transformation since the PnP is non-differentiable, which leads to unstable registration results. To address these problems, we propose to learn a structured cross-modality latent space to represent pixel features and 3D features via a differentiable probabilistic PnP solver. Specifically, we design a triplet network to learn VoxelPoint-to-Pixel matching, where we represent 3D elements using both voxels and points to learn the cross-modality latent space with pixels. We design both the voxel and pixel branch based on CNNs to operate convolutions on voxels/pixels represented in grids, and integrate an additional point branch to regain the information lost during voxelization. We train our framework end-to-end by imposing supervisions directly on the predicted pose distribution with a probabilistic PnP solver. To explore distinctive patterns of cross-modality features, we design a novel loss with adaptive-weighted optimization for cross-modality feature description. The experimental results on KITTI and nuScenes datasets show significant improvements over the state-of-the-art methods. The code and models are available at https://github.com/junshengzhou/VP2P-Match.
研究の動機と目的
- MLPベースの点特徴とCNNベースの画像特徴との間のドメインギャップによって、堅牢なクロスモダリティ(2D画像と3D LiDAR)登録の難しさを動機づけ、対処する。
- 3D要素をボクセルとポイントの組み合わせとして表現し、2Dピクセル表現と整合させるトリプレットネットワークを提案する。
- 適応重み付き最適化で構造化されたクロスモダリティ潜在空間を学習し、堅牢な2D-3D対応を確立する。
- エンドツーエンドのトレーニング中に姿勢分布を直接監督する微分可能な確率的PnPソルバーを導入する。
- KITTIとnuScenesで最先端手法と比較して優れた性能を示し、効率とアブレーションを分析する。
提案手法
- Voxel/Point/Pixel ブランチを備えたトリプレットネットワークを導入し、整列した2D/3D特徴を生成する。
- 高解像度の疎なボクセルとポイントの組み合わせとして3D要素を表現し、3Dポイントへのトライリニア補間を用いて。
- 2D特徴をコサイン類似度を介して3D特徴と共有潜在空間に射影し、クロスモダリティマッチングを行う。
- 適応重み付き最適化を用いて、識別的なクロスモダリティパターンを学習し、ハードネガティブサンプルを堅牢に扱う。
- インターセクション領域検出を実装して、モダリティ間のマッチング前に外れ値を除去する。
- 微分可能な確率的PnPソルバーを採用して、MCサンプリングを含む予測姿勢分布とグランド-truth姿勢分布間のKL発散を最小化し、姿勢損失と訓練用の微分可能なPnP拡張を併用してエンドツーエンドを訓練する。
実験結果
リサーチクエスチョン
- RQ1構造化されたクロスモダリティ潜在空間は2Dピクセルと3Dポイント/ボクセル特徴を統合して、信頼できる2D-3Dマッチングを可能にするか?
- RQ2ボクセルとポイント表現を組み合わせることで、モダリティ間登録のためのボクセル化後の3D特徴忠実性は向上するか?
- RQ3エンドツーエンドの微分可能なPnP監督は、2D-3D登録におけるポーズ推定を後付けPnPより改善するか?
- RQ4適応重み付き最適化は、クロスモダリティマッチングの標準的なコントラスト学習/トリプレット損失より効果的か?
- RQ5VP2P-Match を適用した場合、KITTIとnuScenesといった標準自動運転データセットでの効率と精度の向上はどうなるか?
主な発見
| 手法 | RTE (KITTI) ↓ | RRE (KITTI) ↓ | Acc. KITTI ↑ | RTE (nuScenes) ↓ | RRE (nuScenes) ↓ | Acc. nuScenes ↑ |
|---|---|---|---|---|---|---|
| Grid Cls. + PnP [26] | 3.64 ± 3.46 | 19.19 ± 28.96 | 11.22 | 3.02 ± 2.40 | 12.66 ± 21.01 | 2.45 |
| DeepI2P (3D) [26] | 4.06 ± 3.54 | 24.73 ± 31.69 | 3.77 | 2.88 ± 2.12 | 20.65 ± 12.24 | 2.26 |
| DeepI2P(2D) [26] | 3.59 ± 3.21 | 11.66 ± 18.16 | 25.95 | 2.78 ± 1.99 | 4.80 ± 6.21 | 38.10 |
| CorrI2P [36] | 3.78 ± 65.16 | 5.89 ± 20.34 | 72.42 | 3.04 ± 60.76 | 3.73 ± 9.03 | 49.00 |
| Ours | 0.75 ± 1.13 | 3.29 ± 7.99 | 83.04 | 0.89 ± 1.44 | 2.15 ± 7.03 | 88.33 |
- 提案手法 VP2P-Match は KITTI および nuScenes で最先端を超える登録精度(RTE、RRE、および Acc)を達成。
- RTX 3090 上でフレームあたり推定姿勢時間を0.19 s に大幅に短縮し、従来手法を速度で上回る。
- ボクセルとポイントの組み合わせとボクセル化CNNを用いることで、構造化されたクロスモダリティ潜在空間を促進する。
- 適応重み付け最適化は、標準的な対比損失と比較して、クロスモダリティ特徴学習とマッチングの堅牢性を向上させる。
- 微分可能な確率的PnPソルバーを用いたエンドツーエンド訓練は、ポーズ分布を直接監督し、より正確で安定した登録をもたらす。
- アブレーション研究により、ボクセルとポイントの両ブランチが性能に寄与することが示され、特にボクセルブランチが影響力が大きい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。