[논문 리뷰] Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning?
이 논문은 Autoencoders를 Cross-Modal Teachers (ACT)로 제안하며, 사전 학습된 2D 이미지 또는 언어 트랜스포머를 cross-modal 교사로 사용하여 masked point modeling을 통해 자가지도 학습된 3D 표현을 지도하고, 3D 작업 전반에 걸친 강한 일반화 성과를 얻는다.
The success of deep learning heavily relies on large-scale data with comprehensive labels, which is more expensive and time-consuming to fetch in 3D compared to 2D images or natural languages. This promotes the potential of utilizing models pretrained with data more than 3D as teachers for cross-modal knowledge transferring. In this paper, we revisit masked modeling in a unified fashion of knowledge distillation, and we show that foundational Transformers pretrained with 2D images or natural languages can help self-supervised 3D representation learning through training Autoencoders as Cross-Modal Teachers (ACT). The pretrained Transformers are transferred as cross-modal 3D teachers using discrete variational autoencoding self-supervision, during which the Transformers are frozen with prompt tuning for better knowledge inheritance. The latent features encoded by the 3D teachers are used as the target of masked point modeling, wherein the dark knowledge is distilled to the 3D Transformer students as foundational geometry understanding. Our ACT pretrained 3D learner achieves state-of-the-art generalization capacity across various downstream benchmarks, e.g., 88.21% overall accuracy on ScanObjectNN. Codes have been released at https://github.com/RunpeiDong/ACT.
연구 동기 및 목표
- 3D 데이터의 희소성으로 인한 3D 학습에 대한 교차 모달 지식 전달의 필요성을 제기한다.
- 3D 자동 인코딩에 대한 교사로서 사전 학습된 2D 이미지 및 언어 트랜스포머를 활용한다.
- 3D 표현에 풍부한 의미를 이어받기 위한 두 단계 학습 프레임워크를 개발한다.
- 사전 학습된 지식을 보존하면서 추가적인 다운스트림 데이터 주석을 피한다.
제안 방법
- 교차 모달 교사에 의해 안내되는 마스크드 모델링으로 3D 학습을 프레이밍한다.
- 단계 I: 프롬프트 튜닝을 사용하여 사전 학습된 트랜스포머를 3D 자동인코더로 미세 조정한다.
- 단계 II: 코사인 유사도 손실을 가진 마스크드 포인트 모델링을 통해 3D 자동인코더(교사)의 잠재 특성을 3D 트랜스포머 학생에게 증류한다.
- 3D 자동인코더에서 이산 변분 자동인코더(dVAE) 토크나이저와 FoldingNet 기반 재구성을 사용한다.
- 교차 모달 전이 중 프롬프트 임베딩과 두 단계 학습을 사용하여 사전 학습된 지식을 보존한다.
- 마스킹 기반 증류를 일관된 마스크드 모델링 목적(음의 코사인 유사도)으로 고정한다.
실험 결과
연구 질문
- RQ12D 이미지 또는 언어 트랜스포머를 사전 학습한 것이 2D/언어 다운스트림 데이터 없이도 자가지도 3D 표현 학습을 향상시킬 수 있는가?
- RQ2프롬프트 튜닝이 트랜스포머를 3D 자동인코딩으로 적응시킬 때 교차 모달 지식을 보존하는 데 도움이 되는가?
- RQ3교차 모달 교사를 이용한 마스크드 포인트 모델링이 3D 트랜스포머에 효과적인가?
- RQ4ACT가 2D/3D SSL 방법과 비교해 다양한 3D 다운스트림 작업에서 어떤 성능을 보이는가?
주요 결과
- ACT는 3D 다운스트림 작업 전반에서 강한 일반화를 달성하며 ScanObjectNN에서 주목할 만한 개선을 포함합니다.
- ScanObjectNN에서 ACT는 특정 설정에서 정확도 평균 +11.9%의 향상을 보입니다.
- ModelNet40에서 ACT는 1k 포인트로 Full transfer 하에서 93.7% OA를 달성합니다.
- 3D 씬 분할(S3DIS Area 5)에서 ACT는 mAcc를 +2.5% 향상시키고 mIoU를 +1.2% 향상시킵니다.
- 언어 모델(BERT-base)을 교차 모달 교사로 사용하는 것도 여전히 경쟁력 있는 정확도를 달성할 수 있어 ACT의 모달리티 무관성 가능성을 보여줍니다.
- 프롬프트 튜닝과 사전 학습된 모델의 동결이 Stage I에서 전체 튜닝보다 뛰어나며 더 많은 사전 학습 지식을 보존합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.