QUICK REVIEW

[論文レビュー] Towards Label-free Scene Understanding by Vision Foundation Models

Runnan Chen, Youquan Liu|arXiv (Cornell University)|Jun 6, 2023

Multimodal Machine Learning Applications被引用数 15

ひとこと要約

本論文は、Cross-modality Noisy Supervision（CNS）を提案し、CLIPとSAMを活用して2Dおよび3Dのラベルなしセマンティックセグメンテーションを実現する。ScanNet、nuImages、nuScenesで実証的な性能向上を示している。

ABSTRACT

Vision foundation models such as Contrastive Vision-Language Pre-training (CLIP) and Segment Anything (SAM) have demonstrated impressive zero-shot performance on image classification and segmentation tasks. However, the incorporation of CLIP and SAM for label-free scene understanding has yet to be explored. In this paper, we investigate the potential of vision foundation models in enabling networks to comprehend 2D and 3D worlds without labelled data. The primary challenge lies in effectively supervising networks under extremely noisy pseudo labels, which are generated by CLIP and further exacerbated during the propagation from the 2D to the 3D domain. To tackle these challenges, we propose a novel Cross-modality Noisy Supervision (CNS) method that leverages the strengths of CLIP and SAM to supervise 2D and 3D networks simultaneously. In particular, we introduce a prediction consistency regularization to co-train 2D and 3D networks, then further impose the networks' latent space consistency using the SAM's robust feature representation. Experiments conducted on diverse indoor and outdoor datasets demonstrate the superior performance of our method in understanding 2D and 3D open environments. Our 2D and 3D network achieves label-free semantic segmentation with 28.4\% and 33.5\% mIoU on ScanNet, improving 4.7\% and 7.9\%, respectively. For nuImages and nuScenes datasets, the performance is 22.1\% and 26.8\% with improvements of 3.5\% and 6.0\%, respectively. Code is available. (https://github.com/runnanchen/Label-Free-Scene-Understanding).

研究の動機と目的

オープンワールド環境における2Dおよび3Dのラベルなしシーン理解を動機づける。
視覚ファウンデーションモデルCLIP（分類）とSAM（セグメンテーション）を活用してノイズのある擬似ラベルを生成する。
ラベルノイズを乗り越えて、2Dと3Dネットワークを同時に監督する共同フレームワークを開発する。
SAM由来の潜在空間正則化を用いて多モーダル表現を整合させ、安定化する。
室内データセットと屋外データセットにおいて、ラベルなしセグメンテーションの最先端性能を実証する。

提案手法

CLIPで2Dピクセルに擬似ラベルを付与し、較正マトリクスを介して3D点へ転送する。
SAMマスクを用いてCLIP由来の擬似ラベルを精製し、監視品質を向上させる。
モダリティ間で擬似ラベルをランダムに切り替え、予測の一貫性正則化を用いて2Dおよび3Dネットワークを訓練する。
コサイン類似度損失（L_f）を用いて凍結済みSAM特徴空間に対して2D/3D特徴を整合させ、潜在空間の一貫性を課す。
2段階の訓練: 第1段階は精製ラベルで訓練; 第2段階は複数の擬似ラベル源を用いた自己学習およびクロス学習を導入。
Backbone: 3DにMinkowskiNet34、2DにDeeplabV3; 線密なピクセルラベリングのためにCLIPアテンションプーリングを改変。

実験結果

リサーチクエスチョン

RQ1視覚ファウンデーションモデルは、オープンワールドでラベルなしの2Dおよび3Dシーン理解を実現できるか？
RQ2CLIPとSAMをどう組み合わせて、クロスモーダル監視のための頑健でノイズのある擬似ラベルを生成できるか？
RQ3擬似ラベルを切替えた2Dおよび3Dネットワークの共同訓練は、ラベルノイズに起因する誤差の伝播を緩和するか？
RQ4SAM特徴との潜在空間整合は、ラベルなし設定でのセグメンテーション境界を改善できるか？
RQ5提案されたCNSフレームワークは、室内（ScanNet）および屋外（nuScenes、nuImages）データセットでラベルなしデータとしてどの程度性能を発揮するか？

主な発見

提案されたCNSフレームワークは、ScanNetおよびnuScenesで2Dおよび3Dデータのラベルなしセマンティックセグメンテーションを実現し、既存のラベルなし手法を上回る。
ScanNetでは、2Dおよび3DのmIoUがそれぞれ28.4%と33.5%に達し、従来手法より4.7%と7.9%の改善。
nuImagesとnuScenesでは、2Dと3Dの結果がそれぞれ22.1%と26.8%のmIoUとなり、ベースラインより3.5%と6.0%の改善。
アブレーション研究は、SAMベースのラベル精製、予測一貫性正則化、およびSAM特徴を用いた潜在空間の一貫性が性能に重要であることを示す。
全構成（CNSの全要素を含む）は、評価データセット全体で最良のラベルなし2D/3Dセグメンテーション結果をもたらす。
定性的な結果は、ラベルなしで多くのオープンワールドオブジェクトをセグメント化する方法の能力を示し、いくつかのケースで人間に近い性能に迫る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。