QUICK REVIEW

[論文レビュー] Learning from 2D: Contrastive Pixel-to-Point Knowledge Transfer for 3D Pretraining

Yueh-Cheng Liu, Yu–Kai Huang|arXiv (Cornell University)|Apr 10, 2021

Advanced Vision and Imaging参考文献 65被引用数 24

ひとこと要約

本論文は、追加の3次元アノテーションを必要とせず、事前学習された2次元畳み込みニューラルネットワーク（CNN）を用いて3次元ニューラルネットワークを初期化する、新しい3次元事前学習手法である対照的ピクセルからポイントへの知識移行（PPKT）を提案する。微分可能な逆投影と学習可能なアップサンプリング投影層を介して、2次元ピクセル特徴と3次元ポイント特徴を一致させることで、2次元と3次元表現間の対照学習を可能にし、3次元セマンティックセグメンテーションおよびオブジェクト検出において、顕著なmAP向上を達成し、最先端の性能を実現した。

ABSTRACT

Most 3D neural networks are trained from scratch owing to the lack of large-scale labeled 3D datasets. In this paper, we present a novel 3D pretraining method by leveraging 2D networks learned from rich 2D datasets. We propose the contrastive pixel-to-point knowledge transfer to effectively utilize the 2D information by mapping the pixel-level and point-level features into the same embedding space. Due to the heterogeneous nature between 2D and 3D networks, we introduce the back-projection function to align the features between 2D and 3D to make the transfer possible. Additionally, we devise an upsampling feature projection layer to increase the spatial resolution of high-level 2D feature maps, which enables learning fine-grained 3D representations. With a pretrained 2D network, the proposed pretraining process requires no additional 2D or 3D labeled data, further alleviating the expensive 3D data annotation cost. To the best of our knowledge, we are the first to exploit existing 2D trained weights to pretrain 3D deep neural networks. Our intensive experiments show that the 3D models pretrained with 2D knowledge boost the performances of 3D networks across various real-world 3D downstream tasks.

研究の動機と目的

3次元ニューラルネットワークの効果的な事前学習を阻害する大規模なラベル付き3次元データセットの不足に対処すること。
事前学習された2次元ネットワークからの知識が、3次元ネットワークに効果的に転送可能かどうかを調査すること。
追加の3次元アノテーションや2次元-3次元データのアライメントを必要としない、2次元から3次元への知識移行手法の開発。
2次元と3次元のネットワークアーキテクチャの非均質性およびピクセルとポイント特徴の不一致を克服すること。

提案手法

2次元ピクセル特徴を3次元ポイント特徴にマッピングする、共通の埋め込み空間に配置された対照的ピクセルからポイントへの知識移行（PPKT）フレームワークを提案する。
カメラプロジェクションに基づいて2次元特徴を3次元ポイントに投影することで、2次元特徴マップと3次元ポイントクラウドを一致させる、微分可能な逆プロジェクション関数を導入する。
低解像度の2次元特徴の空間分解能を回復させるために、学習可能なアップサンプリング特徴投影層（UPL）を設計する。
追加の2次元または3次元ラベル付きデータを事前学習中に必要としない、事前学習済み2次元ネットワーク（例：ResNet50）を教師モデルとして使用する。
2次元ピクセル特徴と3次元ポイント特徴の間で対照学習を適用し、特徴の一致を促進し、表現品質を向上させる。
3次元モデルをPPKTで初期化し、下流の3次元タスクでファインチューニングする、事前学習-ファインチューニングプロトコルを採用する。

実験結果

リサーチクエスチョン

RQ1事前学習済み2次元CNNからの知識が、3次元ニューラルネットワークに効果的に転送可能で、下流タスクのパフォーマンスを向上させられるか？
RQ2アーキテクチャ的およびデータモダリティの違いがあるにもかかわらず、2次元ネットワークのピクセルレベル特徴と3次元空間におけるポイントレベル特徴をどのように一致させられるか？
RQ3自己教師付きで事前学習された2次元教師（例：MoCo）を用いることで、教師の事前学習戦略として教師付きImageNet教師と同等の性能が得られるか？
RQ4ラベル付き3次元データが限られている、または3次元ネットワークが大規模な場合に、本手法が3次元表現学習を向上させられるか？
RQ5PPKTは、PointContrastのような既存の自己教師付き3次元事前学習手法と相乗効果を発揮するか？

主な発見

スキャンされたオブジェクト検出ベンチマークであるScanNetにおいて、PPKTは、スクラッチからの学習と比較して+3.17 mAP@0.25の向上を達成した。
SUN RGB-Dデータセットでは、mAPがスクラッチからの学習時（32.81%）から33.92%に向上し、複数のデータセットにわたる一貫した向上を示した。
S3DISのセマンティックセグメンテーションにおいて、PPKTはPointContrast（66.86%）を上回る68.27%のmIoUを達成した。
自己教師付きで事前学習されたMoCoベースの2次元教師を用いることで、教師の事前学習戦略にかかわらず、教師付きImageNet教師と同等の性能が得られ、本手法のロバスト性を示した。
T-SNE可視化により、3次元の監視なしに、PPKTが意味的に意味のあるポイント特徴を学習していることが確認され、強力なゼロショットの意味理解能力を示した。
3次元ネットワークが大規模であるか、ラベル付きデータが限られている場合に、性能向上が顕著に現れ、本手法が低データ環境下でも有効であることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。