[論文レビュー] P4Contrast: Contrastive Learning with Pairs of Point-Pixel Pairs for RGB-D Scene Understanding
P4Contrastは、RGB-Dシーン理解のためRGBと幾何を統合する点-ピクセル対の対照学習タスクを導入し、ScanNet、SUN RGB-D、3RScan全体で意味セグメンテーションと3D物体検出の性能向上をもたらす。
Self-supervised representation learning is a critical problem in computer vision, as it provides a way to pretrain feature extractors on large unlabeled datasets that can be used as an initialization for more efficient and effective training on downstream tasks. A promising approach is to use contrastive learning to learn a latent space where features are close for similar data samples and far apart for dissimilar ones. This approach has demonstrated tremendous success for pretraining both image and point cloud feature extractors, but it has been barely investigated for multi-modal RGB-D scans, especially with the goal of facilitating high-level scene understanding. To solve this problem, we propose contrasting "pairs of point-pixel pairs", where positives include pairs of RGB-D points in correspondence, and negatives include pairs where one of the two modalities has been disturbed and/or the two RGB-D points are not in correspondence. This provides extra flexibility in making hard negatives and helps networks to learn features from both modalities, not just the more discriminating one of the two. Experiments show that this proposed approach yields better performance on three large-scale RGB-D scene understanding benchmarks (ScanNet, SUN RGB-D, and 3RScan) than previous pretraining approaches.
研究の動機と目的
- 3Dシーン理解に適した密なRGB-D表現のための自己教師あり学習を動機づける。
- RGBと幾何を統合する新規の事前学習タスクを提案する。点-ピクセル対のペアを用いる。
- この手法が複数のRGB-Dベンチマークで最先端の改善をもたらすことを示す。
提案手法
- 点-ピクセル対を、同期したRGBと深度観測から得られる密なRGB-Dトークンとして定義する。
- 各シーンの2つのビューを作成し、アンカー/ポジティブ/ネガティブな点-ピクセル対を構築する。RGB-幾何学の共同学習を強制するために乱されたペアのネガティブも含める。
- PairInfoNCE損失を用いてアンカー–ポジティブを引き寄せ、アンカー–ネガティブを引き離す。
- 3DのSR-UNetと2DのFuseNetを組み合わせた2D-3Dコンテキストバックボーンを用い、融合RGB-D表現を作成する。
- 部分的に乱されたネガティブに対して段階的な難易度スケジューリングを適用し、学習難易度のバランスを取る。
- RGB-Dデータ拡張を用いて訓練し、3Dには点のジッター、RGBにはガウスノイズを含む。
実験結果
リサーチクエスチョン
- RQ1点-ピクセル対の対を組み合わせた対照的目的が、単一モダリティや単純なクロスモーダル対比よりもRGB-Dの融合を改善できるか?
- RQ22D-3Dコンテキストバックボーンは、3Dオンリーまたは2Dオンリーのベースラインと比較してRGB-D特徴学習を改善するか?
- RQ3乱された(部分的にネガティブな)点-ピクセル対は、共同で有用なRGB-D特徴の学習を改善するか?
主な発見
| 手法 | 入力 | mIoU_K5 | mIoU_K3 |
|---|---|---|---|
| Train from scratch | Geo | 71.3 | 72.1 |
| PointContrast [63] | Geo+RGB | N/A | 74.1 |
| PointContrast 1 1 footnotemark: 1 | Geo | 72.4 | 73.2 |
| PointContrast 1 1 footnotemark: 1 | Geo+RGB | 72.7 | 73.8 |
| P4Contrast(3D context) | Geo+RGB | 73.6 | 74.3 |
| P4Contrast(2D-3D context) | Geo+RGB | 74.6 | 75.0 |
- P4Contrastは、ScanNetV2と3RScanの意味セグメンテーション、さらにはSUN RGB-Dの3D物体検出の3つのタスクで下流性能を向上させる。
- ScanNetV2の意味セグメンテーションでは、P4Contrast(2D-3D context)は75.0 mIoU(K3)を達成、72.1のベースライン(K5)および一部のPointContrast変種の73.8を上回る。
- 3RScanの意味セグメンテーションでは、P4Contrast(2D-3D context)は41.7 mIoUに達し、38.8(PointContrast)および37.3(スクラッチからの訓練)から向上。
- SUN RGB-Dの3D物体検出では、P4Contrastは63.5 mAP@0.25を達成し、VoteNet、PointContrast、ImVoteNetのベースラインを上回る。
- データが限られている場合の微調整で顕著な利得をもたらし、例としてScanNetトレーニングデータのわずか10%で4.5 mIoUの改善。
- RGB-Dの結合を伴う2D-3Dコンテキストバックボーンは、単一モダリティや単純なRGBを強化した点アプローチよりも優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。