Skip to main content
QUICK REVIEW

[論文レビュー] Segment Any Point Cloud Sequences by Distilling Vision Foundation Models

Youquan Liu, Lingdong Kong|arXiv (Cornell University)|Jun 15, 2023
3D Shape Modeling and Analysis被引用数 29
ひとこと要約

Sealはビジョン・ファウンデーションモデルを蒸留し、自動車点群から自己教師ありで意味論的に意識した3D表現を学習し、スケーラブルで一貫性があり、さまざまなデータセットに対して一般化可能なセグメンテーションを実現する。

ABSTRACT

Recent advancements in vision foundation models (VFMs) have opened up new possibilities for versatile and efficient visual perception. In this work, we introduce Seal, a novel framework that harnesses VFMs for segmenting diverse automotive point cloud sequences. Seal exhibits three appealing properties: i) Scalability: VFMs are directly distilled into point clouds, obviating the need for annotations in either 2D or 3D during pretraining. ii) Consistency: Spatial and temporal relationships are enforced at both the camera-to-LiDAR and point-to-segment regularization stages, facilitating cross-modal representation learning. iii) Generalizability: Seal enables knowledge transfer in an off-the-shelf manner to downstream tasks involving diverse point clouds, including those from real/synthetic, low/high-resolution, large/small-scale, and clean/corrupted datasets. Extensive experiments conducted on eleven different point cloud datasets showcase the effectiveness and superiority of Seal. Notably, Seal achieves a remarkable 45.0% mIoU on nuScenes after linear probing, surpassing random initialization by 36.9% mIoU and outperforming prior arts by 6.1% mIoU. Moreover, Seal demonstrates significant performance gains over existing methods across 20 different few-shot fine-tuning tasks on all eleven tested point cloud datasets.

研究の動機と目的

  • VFMsを用いて生データの点群上で直接事前学習することにより、アノテーションの要件を排除する。
  • カメラ-to-LiDARおよび点-to-セグメントの関係において、空間的・時間的整合性を強制する。
  • 2D VFMsからの意味情報を活用して3D表現学習を導く。
  • 実データ/合成データ、低解像度/高解像度、ノイズが混じったデータなど、データセットを跨ぐ強い一般化を達成する。
  • 下流の3Dセマンティングタスクへの即座に利用可能な転移機構を提供する。

提案手法

  • ビジョン・ファウンデーションモデルを用いてカメラ視点で意味論的スーパーピクセルを生成する。
  • LiDAR点特徴を画像スーパーピクセル特徴と整列させることで2D–3D知識を蒸留し、クロスモーダル対比損失(L^vfm)を用いる。
  • 3D点特徴と2D画像特徴を学習可能なヘッド(QとK)を持つ共有埋め込み空間に射影し、正規化する。
  • 隣接する時刻間での意味的一貫性を、時系列スーパーポイント正則化損失(L^tmp)を通じて強制する。
  • 点-to-セグメント正則化(L^p2s)を適用し、点特徴を対応するセグメント平均へ引き寄せる。
  • L^vfm、L^tmp、L^p2sを最終目的関数として結合する。
  • 時間的アグリゲーションと非地上セグメントクラスタリングを用いて、カメラ-LiDARの同期が不完全な場合にも対応する頑健な幾何戦略を組み込む。

実験結果

リサーチクエスチョン

  • RQ1ビジョン・ファウンデーションモデルは3Dアノテーションなしで3D点群セグメンテーションに意味論的に有意な監督を提供できるか?
  • RQ2クロスモーダル(2D–3D)蒸留は多様なデータセットでの自動車用LiDARデータの表現学習を改善するか?
  • RQ3意味論的スーパーポイントの時系列的一貫性は、異なるセンサーや条件への頑健性と一般化を高めるか?
  • RQ4学習された表現は、忠実度やノイズが異なる下流タスクやデータセットへ転移可能か?
  • RQ5異なるビジョンファウンデーションモデルは、クロスモーダル蒸留と最終的なセグメンテーション性能にどのように影響しますか?

主な発見

  • SealはnuScenesで45.0%のmIoUを達成する強力な線形プロービング性能を示し、ランダム初期化を36.9%、既存法を6.1%のmIoUで上回る。
  • Sealは11データセットに渡る20件以上のfew-shot微調整タスクで一貫して従来法を上回る。
  • nuScenes-Cのロバストネステスト全般で、Sealは優れた耐性と複数の破損/ノイズ下での総合的なmIoUが向上を示す。
  • 異なるVFMは異なる利得をもたらす。SEEMとSAMは一般にSLICベースのベースラインより大きな改善をもたらし、SealはSLidRを一貫して上回る。
  • 部分的アノテーションを含む半教師あり variant も高い性能を維持し、時に完全教師あり手法を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。