QUICK REVIEW

[논문 리뷰] Contrast with Reconstruct: Contrastive 3D Representation Learning Guided by Generative Pretraining

Zekun Qi, Runpei Dong|arXiv (Cornell University)|2023. 02. 05.

Human Pose and Action Recognition인용 수 30

한 줄 요약

ReCon은 인코더-디코더 ReCon-block을 통해 대조적 학습과 생성적 3D 자기지도 학습을 하나로 묶고, 재구성 기반의 로컬 지식을 전역 대조 모델로 전달하여 ScanObjectNN과 ModelNet40에서 최첨단 성과를 달성한다.

ABSTRACT

Mainstream 3D representation learning approaches are built upon contrastive or generative modeling pretext tasks, where great improvements in performance on various downstream tasks have been achieved. However, we find these two paradigms have different characteristics: (i) contrastive models are data-hungry that suffer from a representation over-fitting issue; (ii) generative models have a data filling issue that shows inferior data scaling capacity compared to contrastive models. This motivates us to learn 3D representations by sharing the merits of both paradigms, which is non-trivial due to the pattern difference between the two paradigms. In this paper, we propose Contrast with Reconstruct (ReCon) that unifies these two paradigms. ReCon is trained to learn from both generative modeling teachers and single/cross-modal contrastive teachers through ensemble distillation, where the generative student guides the contrastive student. An encoder-decoder style ReCon-block is proposed that transfers knowledge through cross attention with stop-gradient, which avoids pretraining over-fitting and pattern difference issues. ReCon achieves a new state-of-the-art in 3D representation learning, e.g., 91.26% accuracy on ScanObjectNN. Codes have been released at https://github.com/qizekun/ReCon.

연구 동기 및 목표

데이터가 많이 필요한 것과 데이터를 채우는 한계를 극복하기 위해 3D 표현에 대한 대조적(self-supervised) 학습과 생성적 자기지도 학습의 결합을 고무한다.
두 패러다임을 앙상블 증류와 재구성 가이드 대조 프레임워크를 통해 하나로 통합하기 위한 ReCon을 제안한다.
인코더-디코더 ReCon-block에서 stop-gradient를 도입하여, 패턴 차이와 과적합 문제를 해결한다.
ReCon이 단일 모달 및 교차 모달(3D+2D+텍스트) 사전학습 전반에서 일반화 및 데이터 효율성을 향상시킴을 입증한다.
3D 벤치마크에서 최첨단 결과를 보여주는 광범위한 제거 연구 및 전이 평가를 제공한다.

제안 방법

대조적 학습과 생성적 학습을 여러 교사로부터의 증류로 프레이밍한다.
재구성 가이드 임베딩을 전역 대조 디코더로 전달하는 교차 어텐션을 이용한 인코더-디코더 트랜스포머 아키텍처의 ReCon-block을 도입하고, 작업 간 충돌을 피하기 위해 stop-gradient를 사용한다.
ShapeNet에서 단일 모달 및 교차 모달 입력(3D 포인트 클라우드, 렌더링된 RGB 이미지, 언어 설명)을 사용하여 사전 학습한다.
디코더를 위한 로컬 재구성 가이드로 마스킹된 생성 모델링을 사용하고 디코더에 대한 글로벌 교차 모달 대조 목표를 사용한다.
대조 목표에는 Smooth L1 거리와 재구성에는 Chamfer-Distance를 사용하고, 교차 어텐션 연결에는 stop-gradient를 적용한다.
ScanObjectNN과 ModelNet40 전역에서 전체, 선형/MLP, 소수-shot 전이 프로토콜과 제로샷 전이를 포함하여 평가한다.

실험 결과

연구 질문

RQ1앙상블 증류를 통해 지식을 정렬함으로써 3D에서 대조적 학습과 생성적 학습의 공유 이점을 실현할 수 있는가?
RQ2ReCon-block를 통한 재구성 가이드 대조 학습이 순진한 다중 작업 사전 학습보다 일반화 및 데이터 효율성을 향상시키는가?
RQ3어떤 아키텍처 및 학습 선택(마스킹 비율, 디코더 깊이, 2D 교사)이 3D 작업에 대한 ReCon 사전 학습을 최적화하는가?

주요 결과

ReCon은 새로운 최첨단 자기지도 3D 학습을 달성하며, 예를 들어 ScanObjectNN과 ModelNet40에서 상당한 이점을 얻었다.
ReCon은 단일 모달 및 교차 모달 설정 전반에서 강건한 전달 성능을 제공하며, Point-MAE 및 다른 SSL 방법들을 능가한다.
제거 연구(Ablation) 결과, 최적의 마스킹, 디코더 깊이, 2D 비전 교사(ViT)가 사전 학습에서 CLIP 및 기타 교사들보다 우수하다는 것을 보여준다.
교차 어텐션에서 gradient 차단(stop-gradient)을 중단하는 것이 결정적이며, 이를 제거하면 성능이 크게 저하된다.
ModelNet40/ModelNet10에서 제로샷 결과가 PointCLIP 및 CLIP2Point를 포함한 여러 기존 방법을 능가한다.
ReCon은 주의(attention) 시각화를 통해 로컬 기하학적 초점과 전역 3D 이해를 모두 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.