[논문 리뷰] SAT: Size-Aware Transformer for 3D Point Cloud Semantic Segmentation
SAT는 다중-그레나리 주의(attention)와 재-주목 모듈을 결합하여 3D 포인트 클라우드 분할에 크기 인식 학습을 도입하고, S3DIS 및 ScanNetV2에서 최첨단 결과를 달성한다.
Transformer models have achieved promising performances in point cloud segmentation. However, most existing attention schemes provide the same feature learning paradigm for all points equally and overlook the enormous difference in size among scene objects. In this paper, we propose the Size-Aware Transformer (SAT) that can tailor effective receptive fields for objects of different sizes. Our SAT achieves size-aware learning via two steps: introduce multi-scale features to each attention layer and allow each point to choose its attentive fields adaptively. It contains two key designs: the Multi-Granularity Attention (MGA) scheme and the Re-Attention module. The MGA addresses two challenges: efficiently aggregating tokens from distant areas and preserving multi-scale features within one attention layer. Specifically, point-voxel cross attention is proposed to address the first challenge, and the shunted strategy based on the standard multi-head self attention is applied to solve the second. The Re-Attention module dynamically adjusts the attention scores to the fine- and coarse-grained features output by MGA for each point. Extensive experimental results demonstrate that SAT achieves state-of-the-art performances on S3DIS and ScanNetV2 datasets. Our SAT also achieves the most balanced performance on categories among all referred methods, which illustrates the superiority of modelling categories of different sizes. Our code and model will be released after the acceptance of this paper.
연구 동기 및 목표
- 다양한 크기의 객체를 가진 3D 포인트 클라우드의 의미적 분할을 동기화한다.
- 다중 스케일, 사이즈 인식 특징을 학습하는 트랜스포머 블록을 개발한다.
- 객체의 크기에 따라 포인트의 수용 범위를 적응적으로 설정한다.
- devoxelization 손실 없이 미세- 및 거시적 특징을 보존한다.
- 도전적인 실내 데이터세트에서 최첨단 성능을 입증한다.
제안 방법
- 각 주의 층에서 미세- 및 거시적 특징을 생성하는 다중-그레나리(attention) MGA를 도입한다.
- 포인트 토큰과 보셀 토큰 사이의 주의를 직접 계산하는 Point-Voxel Cross Attention (PVCA)을 구현한다.
- MGA에서 다중 스케일 특징을 분리하기 위한 포인트-보셀 샤운트 전략을 사용한다.
- 객체의 크기에 따라 주의 헤드를 동적으로 가중하는 재-주목 모듈을 추가한다.
- 끝-대-끝 분할을 위한 Size-Aware Transformer(SAT)로 SAT 블록을 쌓아 올린다.
- 윈도우 기반의 자기 주의와 다중 스케일 수용 필드, 계층적 스테이지를 포함한 아키텍처 세부 정보를 제공한다.
실험 결과
연구 질문
- RQ1사이즈 인식 학습이 3D 포인트 클라우드에서 서로 다른 크기의 객체에 대한 분할 정확도를 향상시킬 수 있는가?
- RQ2MGA와 PVCA가 devoxelization 손실 없이 다중 스케일 특징을 효과적으로 통합할 수 있는가?
- RQ3재-주목 모듈이 추론 중 객체 크기에 따라 주의를 효과적으로 조정하는가?
- RQ4SAT가 표준 실내 벤치마크(S3DIS, ScanNetV2)에서 기존 방법들과 비교하여 어떤 성과를 보이는가?
주요 결과
| Methods | mIoU (%) | mAcc (%) | Ceil. | Floor | Wall | Beam | Col. | Wind. | Door | Table | Chair | Sofa | Book. | Board | Clut. |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| PointNet | 41.1 | 66.2 | 88.8 | 97.3 | 69.8 | 1.0 | 3.9 | 46.3 | 10.8 | 59.0 | 52.6 | 5.9 | 40.3 | 26.4 | 33.2 |
| RSNet | 51.9 | 59.4 | 93.3 | 98.3 | 79.2 | 0.0 | 15.8 | 45.4 | 50.1 | 67.9 | 65.5 | 52.5 | 22.5 | 41.0 | 43.6 |
| PointCNN | 57.3 | 63.9 | 92.3 | 98.2 | 79.4 | 0.0 | 17.6 | 22.8 | 62.1 | 74.4 | 80.6 | 31.7 | 66.7 | 62.1 | 56.7 |
| SPGraph | 58.0 | 66.5 | 89.4 | 96.9 | 78.1 | 0.0 | 42.8 | 48.9 | 61.6 | 84.7 | 75.4 | 69.8 | 52.6 | 2.1 | 52.2 |
| PCCN | 58.3 | 67.0 | 92.3 | 96.2 | 75.9 | 3.0 | 6.0 | 69.5 | 63.5 | 66.9 | 65.6 | 47.3 | 68.9 | 59.1 | 46.2 |
| PointWeb | 60.3 | 66.6 | 92.0 | 98.5 | 79.4 | 0.0 | 21.1 | 59.7 | 34.8 | 76.3 | 88.3 | 46.9 | 69.3 | 64.9 | 52.5 |
| MinkowsikiNet | 65.4 | 71.7 | 91.8 | 98.7 | 86.2 | 0.0 | 34.1 | 48.9 | 62.4 | 81.6 | 89.8 | 47.2 | 74.9 | 74.4 | 58.6 |
| KPConv | 67.1 | 72.8 | 92.8 | 97.3 | 82.4 | 0.0 | 23.9 | 58.0 | 69.0 | 81.5 | 91.0 | 75.4 | 75.3 | 66.7 | 58.9 |
| ASSANet-L | 66.8 | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
| RepSurf-U | 68.9 | 76.0 | - | - | - | - | - | - | - | - | - | - | - | - | - |
| CBL | 69.4 | 75.2 | 93.9 | 98.4 | 84.2 | 0.0 | 37.0 | 57.7 | 71.9 | 91.7 | 81.8 | 77.8 | 75.6 | 69.1 | 62.9 |
| PatchFormer | 68.1 | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
| Fast PT. | 70.1 | 77.4 | - | - | - | - | - | - | - | - | - | - | - | - | - |
| Point Transformer | 70.4 | 76.5 | 94.0 | 98.5 | 86.3 | 0.0 | 38.0 | 63.4 | 74.3 | 82.4 | 89.1 | 80.2 | 74.3 | 76.0 | 59.3 |
| PointNeXt-XL | 70.8 | 77.5 | 94.2 | 98.5 | 84.4 | 0.0 | 37.7 | 59.3 | 74.0 | 83.1 | 91.6 | 77.4 | 76.7 | 78.8 | 60.6 |
| SAT | 72.6 | 78.8 | 93.6 | 98.5 | 87.2 | 0.0 | 49.3 | 61.1 | 73.6 | 83.7 | 91.8 | 81.7 | 77.9 | 82.3 | 63.4 |
- SAT는 S3DIS Area 5에서 균형 잡힌 범주 성능으로 최첨단 mIoU 및 mAcc를 달성한다.
- SAT는 ScanNetV2에서 74.4% val mIoU 및 74.2% test mIoU를 달성하여 기존 방법을 능가한다.
- 재-주목 및 MGA의 기여가 성능 향상에 필수적이며 특히 작은 클래스에 중요하다고 확인되었다.
- PVCA 기반 MGA는 특징 devoxelization 손실 없이 더 큰 수용 영역을 가능하게 한다.
- 모델은 참조된 방법들 가운데 S3DIS에서 가장 균형 잡힌 범주 성능(가장 낮은 IoU 분산)을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.