QUICK REVIEW

[論文レビュー] PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning

Xiangyang Zhu, Renrui Zhang|arXiv (Cornell University)|Nov 21, 2022

Domain Adaptation and Few-Shot Learning被引用数 22

ひとこと要約

PointCLIP V2 は、現実的な投影と3D対応のGPTプロンプトを用いて、2D-3D-言語のギャップを埋めつつ、3D の訓練なしでゼロショットおよび少数ショットによる3D分類・セマンティック/セグメンテーション・検出を実現するために、CLIPとGPTを統合します。

ABSTRACT

Large-scale pre-trained models have shown promising open-world performance for both vision and language tasks. However, their transferred capacity on 3D point clouds is still limited and only constrained to the classification task. In this paper, we first collaborate CLIP and GPT to be a unified 3D open-world learner, named as PointCLIP V2, which fully unleashes their potential for zero-shot 3D classification, segmentation, and detection. To better align 3D data with the pre-trained language knowledge, PointCLIP V2 contains two key designs. For the visual end, we prompt CLIP via a shape projection module to generate more realistic depth maps, narrowing the domain gap between projected point clouds with natural images. For the textual end, we prompt the GPT model to generate 3D-specific text as the input of CLIP's textual encoder. Without any training in 3D domains, our approach significantly surpasses PointCLIP by +42.90%, +40.44%, and +28.75% accuracy on three datasets for zero-shot 3D classification. On top of that, V2 can be extended to few-shot 3D classification, zero-shot 3D part segmentation, and 3D object detection in a simple manner, demonstrating our generalization ability for unified 3D open-world learning.

研究の動機と目的

3Dドメインの訓練を要せず、オープンワールドな3D理解を促進する。
現実的な投影とGPT生成テキストを介して、2Dビジョン-言語モデルを3Dへ橋渡しする。
ゼロショットおよび少数ショットの3D分類、セグメンテーション、検出を実現する。
統一フレームワーク内で複数の3Dタスクへの汎化を実証する。

提案手法

現実的Projectionパイプライン（Quantize、Densify、Smooth、Squeeze）を用いて、3D点群を深度マップへ投影し、CLIPを促す。
3D指向のコマンドでGPT-3を促し、CLIPのテキストエンコーダ用の豊富な3D特化テキストを生成する。
複数視点の深度マップをGPT生成の3Dテキストと整合させ、3Dデータの画像-テキスト整合性を改善する。
フレームワークを拡張し、ゼロショット/少数ショットの3D分類、ゼロショットの3D部品セグメンテーション、ゼロショットの3D物体検出を可能にする。
CLIPエンコーダを凍結したまま、少数ショット適応のための学習可能な平滑化および3D畳み込みモジュールを任意で追加する。

実験結果

リサーチクエスチョン

RQ1CLIPとGPTを共同でプロンプトして、3Dドメインの訓練なしに統一的な3Dオープンワールド理解を実行できるか？
RQ2現実的投影と3D対応テキストプロンプトを通じて、3DデータをどのようにCLIP適合に変換できるか？
RQ3この統一フレームワークのもとで、ゼロショットおよび少数ショットの3D分類/セグメンテーション/検出の性能はどの程度か？

主な発見

データセット	PointCLIP (0ショット)	PointCLIP V2 (0ショット)	改善幅（V2 vs PointCLIP）
ModelNet10	30.23	73.13	+42.90
ModelNet40	23.78	64.22	+40.44
PB_T50_RS (ScanObjectNN)	6.61	35.36	+28.75

ゼロショット3D分類の向上: ModelNet10 73.13%、ModelNet40 64.22%、ScanObjectNN PB_T50_RS 35.36%。
PointCLIPに対する改善: ModelNet10で+42.90%、ModelNet40で+40.44%、PB_T50_RSで+28.75%。
ScanNet V2でのゼロショット3D検出はAP 25 18.97%、AP 50 11.53%。
ShapeNetPartのゼロショット3D部品セグメンテーションは PointCLIP より mean IoU の向上 +17.4%（mIoU I）。
少数ショットの結果は、最小限の3D訓練で強い性能を示し、ModelNet40で16ショットの精度は例: 89.55%に近い、完全に監視されたベースラインに近づく。
アブレーションから、Realistic Projectionと3D-aware GPT promptingが性能向上にとって決定的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。