QUICK REVIEW

[논문 리뷰] PVT: Point-Voxel Transformer for 3D Deep Learning

Cheng Zhang, Haocheng Wan|arXiv (Cornell University)|2021. 08. 13.

Human Pose and Action Recognition참고 문헌 56인용 수 24

한 줄 요약

PVT는 볼륨 기반 및 포인트 기반 다중 헤드 자기주의를 융합하여 효율적으로 거시적이고 미세한 3D 특징을 포착하는 새로운 3D 딥러닝 아키텍처를 제안한다. 계산 효율성을 위해 볼륨에서 자기주의를 적용하고, 전역적 맥락을 위해 포인트에서 자기주의를 적용하며, 계산을 줄이기 위해 순환 이동 상자 배치 방식을 사용함으로써, PVT는 기존 트랜스포머 모델 대비 7배 빠른 속도로 ModelNet40에서 94.0%의 최고 성능을 달성한다 (테스트 시 투표 미사용).

ABSTRACT

In this paper, we present an efficient and high-performance neural architecture, termed Point-Voxel Transformer (PVT)for 3D deep learning, which deeply integrates both 3D voxel-based and point-based self-attention computation to learn more discriminative features from 3D data. Specifically, we conduct multi-head self-attention (MSA) computation in voxels to obtain the efficient learning pattern and the coarse-grained local features while performing self-attention in points to provide finer-grained information about the global context. In addition, to reduce the cost of MSA computation with high efficiency, we design a cyclic shifted boxing scheme by limiting the MSA computation to non-overlapping local box and also preserving cross-box connection. Evaluated on classification benchmark, our method not only achieves state-of-the-art accuracy of 94.0% (no voting) but outperforms previous Transformer-based models with 7x measured speedup on average. On part and semantic segmentation, our model also obtains strong performance(86.5% and 68.2% mIoU, respectively). For 3D object detection task, we replace the primitives in Frustrum PointNet with PVT block and achieve an improvement of 8.6% AP.

연구 동기 및 목표

볼륨 또는 포인트에만 의존하는 기존 3D 딥러닝 모델의 비효율성과 제한된 표현 능력을 해결하기 위해.
볼륨 기반 및 포인트 기반 자기주의 메커니즘의 강점을 통합하여 3D 데이터에서의 특징 학습을 향상시키기 위해.
최적화된 공간 분할 방식을 통해 3D 트랜스포머에서 다중 헤드 자기주의의 계산 비용을 줄이기 위해.
분류, 세그멘테이션, 탐지와 같은 다양한 3D 비전 벤치마크에서 높은 성능을 달성하기 위해.

제안 방법

PVT는 계산 비용을 줄이고 거시적 국소 특징을 포착하기 위해 볼륨에서 다중 헤드 자기주의(MSA) 계산을 수행한다.
同시적으로 원시 포인트 클라우드에서 자기주의를 적용하여 미세한 기하학적 세부 정보와 전역 맥락을 유지한다.
3D 공간을 겹치지 않는 국소 상자로 분할하기 위해 순환 이동 상자 배치 방식을 사용하여 MSA 계산을 제한하면서도 상자 간 연결성을 유지한다.
교차 모odal attention을 통해 볼륨 및 포인트 특징을 융합하여 특징 표현을 향상시킨다.
Frustrum PointNet의 기본 레이어를 PVT 블록으로 대체하여 3D 객체 탐지 성능을 향상시킨다.
이 설계는 FLOPs를 줄여 효율적인 추론을 가능하게 하며, 정확도를 유지하면서도 상당한 속도 향상을 달성한다.

실험 결과

연구 질문

RQ1볼륨 기반 및 포인트 기반 자기주의를 융합하면 딥 네트워크에서 3D 특징 학습을 향상시킬 수 있는가?
RQ2전역 맥락을 잃지 않으면서도 3D 공간에서 다중 헤드 자기주의를 계산적으로 효율적으로 만들 수 있는가?
RQ3순환 이동을 통한 공간 분할이 주의 분석 계산과 모델 성능에 어떤 영향을 미치는가?
RQ4혼합 볼륨-포인트 주의 메커니즘은 순수한 볼륨 또는 포인트 기반 트랜스포머보다 표준 3D 벤치마크에서 더 나은 성능을 낼 수 있는가?
RQ5제안된 아키텍처는 분류, 세그멘테이션, 탐지와 같은 다양한 3D 비전 작업에서 어떻게 확장되는가?

주요 결과

PVT는 테스트 시 투표 없이 ModelNet40 분류 벤치마크에서 최고 성능인 94.0%의 정확도를 달성한다.
기존 트랜스포머 기반 모델 대비 동일한 벤치마크에서 추론 시 평균 7배 빠른 속도 향상을 보였다.
파트 세그멘테이션에서 PVT는 86.5%의 mIoU를 달성하여 미세한 3D 이해 능력이 뛰어나다는 것을 보여준다.
세분화된 세그멘테이션에서 모델은 68.2%의 mIoU를 기록하여 복잡한 장면에서 강력한 특징 학습 능력을 보였다.
Frustrum PointNet의 기본 요소를 PVT 블록으로 교체했을 때, AP 기준 3D 객체 탐지 성능이 8.6% 향상되었다.
순환 이동 상자 배치 방식은 상자 간 연결성이 유지되면서도 MSA 계산 비용을 효과적으로 줄여 성능을 유지하는 데 기여했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.