QUICK REVIEW

[論文レビュー] Segment Any Point Cloud Sequences by Distilling Vision Foundation Models

Youquan Liu, Lingdong Kong|arXiv (Cornell University)|Jun 15, 2023

3D Shape Modeling and Analysis被引用数 29

ひとこと要約

Sealはビジョン・ファウンデーションモデルを蒸留し、自動車点群から自己教師ありで意味論的に意識した3D表現を学習し、スケーラブルで一貫性があり、さまざまなデータセットに対して一般化可能なセグメンテーションを実現する。

ABSTRACT

Recent advancements in vision foundation models (VFMs) have opened up new possibilities for versatile and efficient visual perception. In this work, we introduce Seal, a novel framework that harnesses VFMs for segmenting diverse automotive point cloud sequences. Seal exhibits three appealing properties: i) Scalability: VFMs are directly distilled into point clouds, obviating the need for annotations in either 2D or 3D during pretraining. ii) Consistency: Spatial and temporal relationships are enforced at both the camera-to-LiDAR and point-to-segment regularization stages, facilitating cross-modal representation learning. iii) Generalizability: Seal enables knowledge transfer in an off-the-shelf manner to downstream tasks involving diverse point clouds, including those from real/synthetic, low/high-resolution, large/small-scale, and clean/corrupted datasets. Extensive experiments conducted on eleven different point cloud datasets showcase the effectiveness and superiority of Seal. Notably, Seal achieves a remarkable 45.0% mIoU on nuScenes after linear probing, surpassing random initialization by 36.9% mIoU and outperforming prior arts by 6.1% mIoU. Moreover, Seal demonstrates significant performance gains over existing methods across 20 different few-shot fine-tuning tasks on all eleven tested point cloud datasets.

研究の動機と目的

VFMsを用いて生データの点群上で直接事前学習することにより、アノテーションの要件を排除する。
カメラ-to-LiDARおよび点-to-セグメントの関係において、空間的・時間的整合性を強制する。
2D VFMsからの意味情報を活用して3D表現学習を導く。
実データ/合成データ、低解像度/高解像度、ノイズが混じったデータなど、データセットを跨ぐ強い一般化を達成する。
下流の3Dセマンティングタスクへの即座に利用可能な転移機構を提供する。

提案手法

ビジョン・ファウンデーションモデルを用いてカメラ視点で意味論的スーパーピクセルを生成する。
LiDAR点特徴を画像スーパーピクセル特徴と整列させることで2D–3D知識を蒸留し、クロスモーダル対比損失（L^vfm）を用いる。
3D点特徴と2D画像特徴を学習可能なヘッド（QとK）を持つ共有埋め込み空間に射影し、正規化する。
隣接する時刻間での意味的一貫性を、時系列スーパーポイント正則化損失（L^tmp）を通じて強制する。
点-to-セグメント正則化（L^p2s）を適用し、点特徴を対応するセグメント平均へ引き寄せる。
L^vfm、L^tmp、L^p2sを最終目的関数として結合する。
時間的アグリゲーションと非地上セグメントクラスタリングを用いて、カメラ-LiDARの同期が不完全な場合にも対応する頑健な幾何戦略を組み込む。

実験結果

リサーチクエスチョン

RQ1ビジョン・ファウンデーションモデルは3Dアノテーションなしで3D点群セグメンテーションに意味論的に有意な監督を提供できるか？
RQ2クロスモーダル（2D–3D）蒸留は多様なデータセットでの自動車用LiDARデータの表現学習を改善するか？
RQ3意味論的スーパーポイントの時系列的一貫性は、異なるセンサーや条件への頑健性と一般化を高めるか？
RQ4学習された表現は、忠実度やノイズが異なる下流タスクやデータセットへ転移可能か？
RQ5異なるビジョンファウンデーションモデルは、クロスモーダル蒸留と最終的なセグメンテーション性能にどのように影響しますか？

主な発見

SealはnuScenesで45.0%のmIoUを達成する強力な線形プロービング性能を示し、ランダム初期化を36.9%、既存法を6.1%のmIoUで上回る。
Sealは11データセットに渡る20件以上のfew-shot微調整タスクで一貫して従来法を上回る。
nuScenes-Cのロバストネステスト全般で、Sealは優れた耐性と複数の破損／ノイズ下での総合的なmIoUが向上を示す。
異なるVFMは異なる利得をもたらす。SEEMとSAMは一般にSLICベースのベースラインより大きな改善をもたらし、SealはSLidRを一貫して上回る。
部分的アノテーションを含む半教師あり variant も高い性能を維持し、時に完全教師あり手法を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。