[논문 리뷰] Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding
Swin3D는 메모리 효율적인 희소 자기 주의와 맥락 상대 신호 인코딩으로 실내 장면 이해를 위한 사전 학습된 3D 트랜스포머 백본을 도입하고, 대규모 합성 Structured3D 데이터셋에서 사전 학습한 뒤 실제 3D 데이터셋에서 미세 조정합니다.
The use of pretrained backbones with fine-tuning has been successful for 2D vision and natural language processing tasks, showing advantages over task-specific networks. In this work, we introduce a pretrained 3D backbone, called {\SST}, for 3D indoor scene understanding. We design a 3D Swin transformer as our backbone network, which enables efficient self-attention on sparse voxels with linear memory complexity, making the backbone scalable to large models and datasets. We also introduce a generalized contextual relative positional embedding scheme to capture various irregularities of point signals for improved network performance. We pretrained a large {\SST} model on a synthetic Structured3D dataset, which is an order of magnitude larger than the ScanNet dataset. Our model pretrained on the synthetic dataset not only generalizes well to downstream segmentation and detection on real 3D point datasets, but also outperforms state-of-the-art methods on downstream tasks with +2.3 mIoU and +2.2 mIoU on S3DIS Area5 and 6-fold semantic segmentation, +1.8 mIoU on ScanNet segmentation (val), +1.9 mAP@0.5 on ScanNet detection, and +8.1 mAP@0.5 on S3DIS detection. A series of extensive ablation studies further validate the scalability, generality, and superior performance enabled by our approach. The code and models are available at https://github.com/microsoft/Swin3D .
연구 동기 및 목표
- 3D 실내 장면 이해에서 확장 가능한 사전 학습 백본의 필요성에 대한 동기 부여.
- 희소 보셀에서 작동하는 선형 메모리 복잡도를 갖는 3D Swin 트랜스포머 백본(Swin3D)을 제안합니다.
- 3D 자기 주의의 메모리 및 신호 불규칙성 문제를 다룹니다.
- Swin3D를 대규모 합성 Structured3D 데이터셋에서 사전 학습하고 다운스트림 작업으로의 일반화를 검증합니다.
- 미세 조정 후 3D 분할 및 탐지에서 우수한 성능을 시연합니다.
제안 방법
- 희소 보셀에서 로컬 윈도우 자기 주의로 작동하는 3D Swin 트랜스포머 백본을 설계합니다.
- SoftMax 정규화를 지연시켜 제곱 비용의 메모리 비용을 줄이며 메모리 효율적인 자기 주의를 구현합니다.
- 다중 신호(위치, 색상, 법선)에 대한 Contextual Relative Signal Encoding(cRSE)으로 맥락 상대 위치 인코딩을 일반화합니다.
- 다중 스케일 특성 인코딩을 위해 5-레벨 계층적 희소 보셀 격자를 사용합니다.
- Structured3D에서 Swin3D-S 및 Swin3D-L를 의미 체계 분할에 대해 사전 학습한 후 다운스트림 데이터셋에서 작업별 디코더로 미세 조정합니다.
- ScanNet 및 S3DIS에서 분할과 탐지 모두를 평가하고 최첨단 방법과 비교합니다.
실험 결과
연구 질문
- RQ1합성 데이터로 학습된 사전 학습 3D 백본이 실제 3D 실내 장면 이해 작업에 일반화될 수 있는가?
- RQ2메모리 효율적 자기 주의가 큰 3D 백본과 확장 가능한 학습을 가능하게 하는가?
- RQ3일반화된 맥락 상대 신호 인코딩이 불규칙한 포인트 신호에서 성능에 어떤 영향을 미치는가?
- RQ4사전 학습된 3D 백본이 처음부터 학습하는 것에 비해 분할 및 탐지 작업에 어떤 이점을 제공하는가?
- RQ5Swin3D가 다양한 벤치마크(ScanNet, S3DIS)에서 분할 및 탐지 모두에 대해 어떻게 성능을 발휘하는가?
주요 결과
- Structured3D에서 Swin3D를 사전 학습한 결과 다운스트림 작업에서 최첨단 방법과 비교해 우수한 성능을 보였습니다.
- S3DIS Area5 및 6-폴드 분할에서 Swin3D가 mIoU를 2.3 포인트 향상시켰습니다.
- S3DIS 분할(6-폴드)에서 mIoU가 2.2 포인트 향상되었습니다.
- ScanNet 분할(검증)에서 mIoU가 1.8 포인트 향상되었습니다.
- ScanNet 탐지에서 AP@0.5가 1.9 포인트 향상되었습니다.
- S3DIS 탐지에서 AP@0.5가 8.1 포인트 향상되었습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.