Skip to main content
QUICK REVIEW

[논문 리뷰] Equivariant Transformer Networks

Kai Sheng Tai, Peter Bailis|arXiv (Cornell University)|2019. 01. 25.
Domain Adaptation and Few-Shot Learning참고 문헌 32인용 수 33
한 줄 요약

등변 변환기(ET) 계층은 도메인 불변성을 표준 좌표를 통해 도입하여 사전 정의된 변환 그룹에 대해 자기 일관성을 갖는 이미지 간 매핑을 생성하고, 매개변수 오버헤드는 최소로 하면서 로버스트성과 샘플 효율성을 향상시킵니다.

ABSTRACT

How can prior knowledge on the transformation invariances of a domain be incorporated into the architecture of a neural network? We propose Equivariant Transformers (ETs), a family of differentiable image-to-image mappings that improve the robustness of models towards pre-defined continuous transformation groups. Through the use of specially-derived canonical coordinate systems, ETs incorporate functions that are equivariant by construction with respect to these transformations. We show empirically that ETs can be flexibly composed to improve model robustness towards more complicated transformation groups in several parameters. On a real-world image classification task, ETs improve the sample efficiency of ResNet classifiers, achieving relative improvements in error rate of up to 15% in the limited data regime while increasing model parameter count by less than 1%.

연구 동기 및 목표

  • 도메인 변환 불변성에 대한 사전 지식을 활용하여 신경망의 로버스트성을 향상시키는 것.
  • 사전에 정의된 연속 변환 그룹에 대한 불변성을 강제로 구현하는 미분 가능한 계층 군을 개발하는 것.
  • ET 계층을 쌓아 여러 변환 불변성의 합성을 가능하게 하는 것.
  • 실제 및 합성 이미지 작업에서 샘플 효율성과 정확도에 대한 실용적 향상을 보여주는 것.

제안 방법

  • 특정 변환 그룹 G에 대해 표준 좌표를 사용하는 등변 변환기(ET) 계층을 도입하여 자기일관성을 달성한다.
  • ET 계층 L_{G,ρ}(φ) = T^{-1}_{f_{ρ}(φ)} φ 를 정의하되, f_{ρ}는 표준 좌표 ρ에서의 자기일관 포즈 예측기이다.
  • 특징법(method of characteristics)을 이용하여 1계 편미분 방정식(PDE)을 풀어 Lie 군의 표준 좌표 ρ를 구성한다.
  • 단일 ρ가 모든 매개변수를 포착하지 못할 때 여러 변환 그룹의 합성을 다루기 위해 ET 계층을 쌓는다.
  • ET 계층을 쌓을 때 반복 보간을 피하기 위해 지연 재샘플링을 구현하고 좌표 변화에는 양선형 보간을 적용한다.

실험 결과

연구 질문

  • RQ1Lie 군의 표준 좌표를 사용하여 신경망에서 연속 변환에 대한 불변성을 어떻게 강제할 수 있는가?
  • RQ2변환이 많은 작업에서 ST와 비교해 Equivariant Transformer 계층이 로버스트성과 샘플 효율성을 개선할 수 있는가?
  • RQ3다중 매개변수 변환 그룹에 대해 ET 계층을 스택하는 것이 실제로 얼마나 효과적인가?
  • RQ4보간 왜곡을 최소화하면서 ET 계층을 구현하기 위한 실제 고려사항은 무엇인가?

주요 결과

MethodTransformations# sampled transformations1248
Cartesian-11.919.677.646.93
Log-polar-6.555.054.483.83
ST-LPsh_x5.774.273.973.47
ST-LPsh_x hr4.923.873.223.03
ST-LP*sh_x5.484.673.633.21
ST-LP*sh_x hr4.183.172.962.62
ET-LPsh_x5.484.673.633.21
ET-LPsh_x hr4.183.172.962.62
  • ET 계층은 구성상 로컬 불변성을 제공하여 변환 궤도를 표준 표현으로 축소한다.
  • Projective MNIST에서 log-polar 좌표 및 변환을 사용하는 ET는 다양한 변환 샘플 수에서 표준 ST 및 Cartesian CNN 베이스라인보다 우수하다.
  • SVHN 유사 작업에서 제한된 데이터 구간에서 ET가 베이스라인에 비해 상대적 오류율을 최대 15% 개선한다.
  • ET 계층이 있는 ResNet-10은 ET가 없는 더 큰 ResNet-34의 정확도를 넘을 수 있으며, 메모리와 연산 비용도 줄어든다.
  • ET 계층을 쌓는 것은 다중 매개변수 변환 그룹에 대해 실용적 이점을 제공하며, 단일 매개변수 표준 좌표를 넘는 로버스트성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.