Skip to main content
QUICK REVIEW

[논문 리뷰] Polar Transformer Networks

Carlos Esteves, Christine Allen-Blanchette|arXiv (Cornell University)|2017. 09. 06.
Advanced Neural Network Applications참고 문헌 28인용 수 31
한 줄 요약

Polar Transformer Networks (PTN)는 이동성에 대해 불변이고 회전 및 크기에 대해 등변성을 갖는 컨volution 신경망을 학습할 수 있도록 하는 미분 가능한 로그-극좌표 변환 모듈을 도입한다. 열매형 원점을 히트맵을 통해 예측하고 입력을 로그-극좌표계로 변환함으로써 PTN은 기울인 MNIST와 새로운 SIM2MNIST 데이터셋에서 최고 성능을 기록하며, 혼잡하고 변형된 숫자를 다룰 때 기존 방법들을 능가한다.

ABSTRACT

Convolutional neural networks (CNNs) are inherently equivariant to translation. Efforts to embed other forms of equivariance have concentrated solely on rotation. We expand the notion of equivariance in CNNs through the Polar Transformer Network (PTN). PTN combines ideas from the Spatial Transformer Network (STN) and canonical coordinate representations. The result is a network invariant to translation and equivariant to both rotation and scale. PTN is trained end-to-end and composed of three distinct stages: a polar origin predictor, the newly introduced polar transformer module and a classifier. PTN achieves state-of-the-art on rotated MNIST and the newly introduced SIM2MNIST dataset, an MNIST variation obtained by adding clutter and perturbing digits with translation, rotation and scaling. The ideas of PTN are extensible to 3D which we demonstrate through the Cylindrical Transformer Network.

연구 동기 및 목표

  • 이동성에 대해 불변이고 회전 및 크기에 대해 등변성을 갖는 CNN 아키텍처를 개발하는 것.
  • 자세 회귀나 일반적인 크기 및 회전을 다룰 수 없는 기존 방법의 한계를 극복하는 것.
  • 기본 좌표계를 사용하여 CNN의 등변성 개념을 회전 외에도 크기와 이동성으로 확장하는 것.
  • 혼잡하고 기하학적 왜곡이 있는 어려운 데이터셋에서 이 방법의 효과성을 입증하는 것.
  • 바다좌표계를 사용하여 3D 볼륨 격자에서의 물체 분류를 위한 프레임워크를 3D로 확장하는 것.

제안 방법

  • 네트워크는 세 단계로 구성된다: 극좌표 원점을 예측하기 위한 완전 컨volution 히트맵 헤드, 미분 가능한 극좌표 변환 모듈, 그리고 표준 분류 헤드.
  • 극좌표 변환 모듈은 미분 가능한 로그-극좌표 변환을 수행하여 카르테시안 입력을 극좌표 공간으로 변환하며, 여기서는 회전과 확대가 이동으로 변환된다.
  • 극좌표 원점은 네트워크가 예측한 단일 채널 히트맵의 중심으로 엔드 투 엔드로 학습된다.
  • 로그-극좌표 공간에서 표준 2D 컨볼루션은 회전-크기 군에 대한 군-컨볼루션으로 작용하여, 명시적 군 필터링 없이도 등변성을 달성할 수 있다.
  • 3D 확장의 경우, 한 축을 채널로 간주하고 각 슬라이스에 대해 2D 극좌표 변환을 적용함으로써 실린더 좌표계를 사용한다. 축 예측은 이방향 탐색을 통해 이루어진다.
  • 네트워크는 역전파를 사용하여 엔드 투 엔드로 훈련되며, 원점 예측과 좌표 변환을 통해 극좌표 변환이 미분 가능하다.

실험 결과

연구 질문

  • RQ1자세 회귀나 군-컨볼루션 필터에 의존하지 않고도 CNN이 이동성에 대해 불변이고 회전 및 크기에 대해 등변성을 갖도록 훈련시킬 수 있는가?
  • RQ2미분 가능한 로그-극좌표 변환을 사용하여 기하학적 왜곡을 기본 좌표계에서 단순한 이동으로 변환할 수 있는가?
  • RQ3극좌표 변환 모듈이 CNN의 깊은 층을 거쳐도 등변성과 불변성을 얼마나 잘 유지하는가?
  • RQ4실린더 좌표계를 사용하여 볼륨 격자에서의 물체 분류를 위해 3D 데이터로 일반화할 수 있는가? 특히 축을 중심으로 한 회전에 대해 등변성을 가지는가?
  • RQ5이러한 방법이 혼잡하고 임의의 기하학적 변형이 있는 데이터셋에서 기존 최고 성능 방법들을 능가하는가?

주요 결과

  • PTN은 기울인 MNIST 데이터셋에서 최고 성능을 기록하며, 기존 방법들보다 뚜렷이 뛰어나다.
  • 혼잡함과 임의의 이동, 회전, 확대가 포함된 새로 도입된 SIM2MNIST 데이터셋에서 PTN은 보고된 바 중 최고의 정확도를 달성한다.
  • 예측된 극좌표 원점 히트맵을 통해 네트워크가 객체 중심을 성공적으로 탐지하고 배경 혼잡함을 거부하는 것으로 시각화되었다.
  • 깊은 층의 활성화 결과는 이동성에 대한 불변성과 회전 및 크기에 대한 등변성이 네트워크 전반에 걸쳐 유지됨을 확인한다.
  • 실린더 변환기 확장은 ModelNet40에서 평균 86.5%의 클래스 정확도를 달성하여, 테스트된 모든 다른 볼륨 기반 방법들을 능가한다.
  • 입력을 실린더 좌표계로 변환함으로써 방법이 3D로 일반화되었으며, 테스트 시 보정 없이도 예측된 축을 중심으로 한 회전에 대해 등변성을 가지게 되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.