Skip to main content
QUICK REVIEW

[논문 리뷰] VV-Net: Voxel VAE Net with Group Convolutions for Point Cloud Segmentation

Hsien-Yu Meng, Lin Gao|arXiv (Cornell University)|2018. 11. 11.
3D Shape Modeling and Analysis참고 문헌 31인용 수 42
한 줄 요약

VV-Net은 점 구절 분할을 개선하기 위해 보셀 격자 내에서 방사형 기저 함수 보간된 VAE를 도입하고, 3D 변환 대칭에 대한 그룹 합성곱으로 ShapeNet과 S3DIS에서 최첨단 결과를 달성합니다.

ABSTRACT

We present a novel algorithm for point cloud segmentation. Our approach transforms unstructured point clouds into regular voxel grids, and further uses a kernel-based interpolated variational autoencoder (VAE) architecture to encode the local geometry within each voxel. Traditionally, the voxel representation only comprises Boolean occupancy information which fails to capture the sparsely distributed points within voxels in a compact manner. In order to handle sparse distributions of points, we further employ radial basis functions (RBF) to compute a local, continuous representation within each voxel. Our approach results in a good volumetric representation that effectively tackles noisy point cloud datasets and is more robust for learning. Moreover, we further introduce group equivariant CNN to 3D, by defining the convolution operator on a symmetry group acting on $\mathbb{Z}^3$ and its isomorphic sets. This improves the expressive capacity without increasing parameters, leading to more robust segmentation results. We highlight the performance on standard benchmarks and show that our approach outperforms state-of-the-art segmentation algorithms on the ShapeNet and S3DIS datasets.

연구 동기 및 목표

  • 비구조적 포인트를 규칙적인 보셀 격자로 변환하여 강건한 포인트 클라우드 분할을 목표로 한다.
  • RBF 기반 보간기와 사전 학습된 VAE로 보셀 내 포인트 분포를 인코딩하여 압축된 잠재 표현을 얻는다.
  • 3D에서 그룹 등가성 합성곱을 도입하여 매개변수를 증가시키지 않고 고유한 대칭을 포착한다.
  • ShapeNet 부분 분할 및 S3DIS 의미론적 분할 데이터셋에서 성능 향상을 시연한다.

제안 방법

  • 포인트 클라우드를 보셀 격자로 변환하고 보셀을 k×k×k 서브보셀로 세분화한다.
  • radial basis functions로 서브 보셀당 값을 계산하여 매끄러운 로컬 표현을 얻는다.
  • 사전 학습된 변동(auto)인코더로 보셀 수준 분포를 인코딩하여 잠재 l-차원 보셀 특징 맵을 생성한다.
  • 대칭 그룹 p4 및 p4m에서 정의된 그룹 등가성 CNN을 적용하여 Z^3의 회전 및 거울 대칭을 포착한다.
  • 각 포인트의 MLP 특징을 직렬화된 보셀 특징과 연결하고 포인트별 다중 클래스 분할을 수행한다.
  • 메모리를 관리하고 수렴을 개선하기 위해 RBF-VAE 모듈과 분할 네트워크를 별도로 학습한다.

실험 결과

연구 질문

  • RQ1연속적이고 정보가 풍부한 보셀 표현이 차지 격자보다 희소한 포인트 분포를 더 잘 포착할 수 있는가?
  • RQ23D 그룹 등가형 합성곱을 도입하면 매개변수를 증가시키지 않고 분할 정확도가 향상되는가?
  • RQ3VV-Net은 표준 벤치마크(ShapeNet, S3DIS)에서 최첨단 방법에 비해 어떤 성능을 보이는가?
  • RQ4RBF 커널과 대체 커널이 보셀 표현 품질에 미치는 영향은 어떠한가?
  • RQ5데이터 누락이나 손상에 대한 VV-Net의 강건성은 어느 정도인가?

주요 결과

  • 전체 VV-Net(RBF-VAE와 그룹 합성곱)은 ShapeNet 부분 분할에서 평균 IoU 기준으로 최첨단 방법보다 2.7% 앞선다.
  • S3DIS 의미론적 분할에서 VV-Net은 이전 방법 대비 평균 IoU가 16.12% 향상된다.
  • RBF-VAE는 포인트 분포가 희소할 때도 0-1 점유가 수렴하지 않는 경우에도 효과적인 보셀 표현을 가능하게 한다.
  • 3D 대칭 그룹 p4 및 p4m에 대한 그룹 합성곱은 매개변수 수를 늘리지 않고 성능을 크게 향상시킨다.
  • 핑거 ablations에서 RBF-VAE나 그룹 합성곱 중 어느 것을 제거해도 평균 IoU가 감소하여 두 구성요소의 중요성을 강조한다.
  • 데이터 누락에 대해 강건성을 보여주며 최대 87.5%의 포인트가 제거되어도 정확도 손실이 거의 없다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.