QUICK REVIEW

[논문 리뷰] Learning from 2D: Contrastive Pixel-to-Point Knowledge Transfer for 3D Pretraining

Yueh-Cheng Liu, Yu–Kai Huang|arXiv (Cornell University)|2021. 04. 10.

Advanced Vision and Imaging참고 문헌 65인용 수 24

한 줄 요약

이 논문은 추가적인 3D 애너테이션 없이 사전 훈련된 2D CNN을 사용하여 3D 신경망을 초기화하는 새로운 3D 사전 훈련 방법인 대비적 픽셀-포인트 지식 전이(PPKT)를 제안한다. 기울기 역전파가 가능한 역투영 함수와 학습 가능한 업샘플링 투영 레이어를 통해 2D 픽셀 특징과 3D 포인트 특징을 정렬함으로써, 2D와 3D 표현 간의 대비 학습을 가능하게 하여, 3D 세분화 및 객체 검출에서 최신 기술 수준의 성능을 달성하며, mAP 향상이著명하다.

ABSTRACT

Most 3D neural networks are trained from scratch owing to the lack of large-scale labeled 3D datasets. In this paper, we present a novel 3D pretraining method by leveraging 2D networks learned from rich 2D datasets. We propose the contrastive pixel-to-point knowledge transfer to effectively utilize the 2D information by mapping the pixel-level and point-level features into the same embedding space. Due to the heterogeneous nature between 2D and 3D networks, we introduce the back-projection function to align the features between 2D and 3D to make the transfer possible. Additionally, we devise an upsampling feature projection layer to increase the spatial resolution of high-level 2D feature maps, which enables learning fine-grained 3D representations. With a pretrained 2D network, the proposed pretraining process requires no additional 2D or 3D labeled data, further alleviating the expensive 3D data annotation cost. To the best of our knowledge, we are the first to exploit existing 2D trained weights to pretrain 3D deep neural networks. Our intensive experiments show that the 3D models pretrained with 2D knowledge boost the performances of 3D networks across various real-world 3D downstream tasks.

연구 동기 및 목표

3D 신경망의 효과적 사전 훈련을 방해하는 대규모 레이블이 부여된 3D 데이터셋의 부족을 해결하기 위해.
사전 훈련된 2D 네트워크에서의 지식이 3D 네트워크로 효과적으로 전이되어 최종 작업 성능을 향상시킬 수 있는지 탐색하기 위해.
추가적인 3D 애너테이션이나 2D-3D 데이터의 정렬이 필요 없이 2D에서 3D로의 지식 전이를 가능하게 하는 방법을 개발하기 위해.
2D와 3D 네트워크 아키텍처 간의 이질성과 픽셀 및 포인트 특징 간의 비일치를 극복하기 위해.

제안 방법

2D 픽셀 수준의 특징을 공유된 임bedding 공간에서 3D 포인트 수준의 특징으로 매핑하는 대비적 픽셀-포인트 지식 전이(PPKT) 프레임워크를 제안한다.
카메라 투영 기반으로 2D 특징을 3D 포인트에 투영함으로써 2D 특징 맵과 3D 포인트 클라우드를 정렬하기 위한 기울기 역전파가 가능한 역투영 함수를 도입한다.
저해상도 2D 특징의 공간 해상도를 복원하여 세밀한 특징 전이를 가능하게 하는 학습 가능한 업샘플링 특징 투영 레이어(UPL)를 설계한다.
사전 훈련된 2D 네트워크(예: ResNet50)를 테이처 모델로 사용하며, 사전 훈련 중에 추가적인 2D 또는 3D 레이블 데이터가 필요로 하지 않는다.
2D 픽셀 특징과 3D 포인트 특징 간의 대비 학습을 적용하여 특징 정렬을 장려하고 표현 품질을 향상시킨다.
3D 모델을 PPKT로 초기화하고 최종 작업에 대해 미세조정하는 사전 훈련-미세조정 프로토콜을 활용한다.

실험 결과

연구 질문

RQ1사전 훈련된 2D CNN에서의 지식이 3D 신경망으로 효과적으로 전이되어 최종 작업 성능을 향상시킬 수 있는가?
RQ2아키텍처 및 데이터 모odal 차이에도 불구하고 2D 네트워크의 픽셀 수준 특징과 3D 공간 내 포인트 수준 특징을 어떻게 정렬할 수 있는가?
RQ3자기지도 학습된 2D 모델(MoCo 등)을 테이처로 사용할 경우, 감독된 ImageNet 테이처와 비교해 유사한 성능을 달성할 수 있는가?
RQ4레이블이 있는 3D 데이터가 제한되거나 3D 네트워크가 클 경우, 제안된 방법이 3D 표현 학습을 향상시킬 수 있는가?
RQ5PPKT는 기존의 자기지도 학습 3D 사전 훈련 방법(PointContrast 등)과 상호보완적인가?

주요 결과

PPKT는 스캔된 데이터셋에서 사전 훈련 없이 학습하는 것에 비해, ScanNet 객체 검출 벤치마크에서 mAP@0.25 기준 +3.17 향상되었다.
SUN RGB-D 데이터셋에서 PPKT는 사전 훈련 없이 학습한 경우의 mAP 32.81%에서 33.92%로 향상되어 여러 데이터셋에서 일관된 성능 향상을 보였다.
S3DIS 세분화 작업에서 PointContrast보다 우수한 성능을 기록하여 mIoU 68.27%를 달성했으며, PointContrast의 66.86%보다 높았다.
자기지도 학습된 MoCo로 사전 훈련된 2D 테이처를 사용할 경우, 감독된 ImageNet 테이처와 유사한 성능을 기록하여, 메서드가 테이처 사전 훈련 전략에 대해 강건함을 입증했다.
T-SNE 시각화 결과, PPKT는 3D 레이블 없이도 의미적으로 유의미한 포인트 특징을 학습함을 확인했으며, 강력한 제로샷 의미 이해 능력을 보였다.
3D 네트워크가 클 경우나 레이블이 있는 데이터가 부족한 경우 성능 향상이 가장著명하여, 저자료 환경에서의 메서드의 효과성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.