QUICK REVIEW

[논문 리뷰] Towards Faster Training of Global Covariance Pooling Networks by Iterative Matrix Square Root Normalization

Peihua Li, Jiangtao Xie|arXiv (Cornell University)|2017. 12. 04.

Advanced Neural Network Applications참고 문헌 24인용 수 20

한 줄 요약

이 논문은 뉴턴-슐츠 반복을 통한 반복적 행렬 제곱근 정규화를 이용해 글로벌 공분산 풀링 네트워크를 빠르게 엔드 투 엔드로 훈련하는 iSQRT-COV를 제안한다. 전방 및 역방향 전파에서 계산 비용이 큰 고유분해(EIG) 또는 특이값 분해(SVD) 대신 행렬 곱셈을 사용함으로써, 효율적인 GPU 병렬 처리가 가능해져, EIG/SVD 기반 방법에 비해 더 빠른 수렴과 뛰어난 정확도를 보이며 ImageNet 및 미세한 계층 구분 벤치마크에서 최고 성능을 달성한다.

ABSTRACT

Global covariance pooling in convolutional neural networks has achieved impressive improvement over the classical first-order pooling. Recent works have shown matrix square root normalization plays a central role in achieving state-of-the-art performance. However, existing methods depend heavily on eigendecomposition (EIG) or singular value decomposition (SVD), suffering from inefficient training due to limited support of EIG and SVD on GPU. Towards addressing this problem, we propose an iterative matrix square root normalization method for fast end-to-end training of global covariance pooling networks. At the core of our method is a meta-layer designed with loop-embedded directed graph structure. The meta-layer consists of three consecutive nonlinear structured layers, which perform pre-normalization, coupled matrix iteration and post-compensation, respectively. Our method is much faster than EIG or SVD based ones, since it involves only matrix multiplications, suitable for parallel implementation on GPU. Moreover, the proposed network with ResNet architecture can converge in much less epochs, further accelerating network training. On large-scale ImageNet, we achieve competitive performance superior to existing counterparts. By finetuning our models pre-trained on ImageNet, we establish state-of-the-art results on three challenging fine-grained benchmarks. The source code and network models will be available at http://www.peihuali.org/iSQRT-COV

연구 동기 및 목표

글로벌 공분산 풀링 네트워크에서 행렬 제곱근 계산을 위해 GPU에 비효율적인 고유분해(EIG) 또는 특이값 분해(SVD)에 의존하는 기존 방법의 비효율성을 해결하기 위해.
EIG/SVD를 대체하여 병렬 GPU 구현에 적합한 반복적 방법을 사용함으로써, 공분산 풀링 네트워크의 빠른 엔드 투 엔드 훈련을 가능하게 하기 위해.
루프 내장된 방향성 그래프 구조를 가진 메타 레이어를 설계하여, ResNet과 같은 깊은 네트워크에서 수렴성과 성능을 보장하기 위해.
사전 훈련된 iSQRT-COV 모델을 사용하여 대규모 및 미세한 계층 시각 인식 벤치마크에서 최고 수준의 성능를 달성하기 위해.
두 번째 순서 풀링과 반복적 행렬 제곱근 정규화가 첫 번째 순서 풀링 및 기존 두 번째 순서 방법보다 우수한 성능를 보일 수 있음을 입증하기 위해.

제안 방법

메타 레이어는 순차적으로 사전 정규화, 쌍방향 뉴턴-슐츠 반복, 사후 보정을 수행하는 루프 내장된 방향성 그래프 구조를 포함한다.
프로베니우스 노름 또는 트레이스를 통한 사전 정규화는 뉴턴-슐츠 반복의 수렴을 보장하여 행렬 제곱근 계산에 기여한다.
뉴턴-슐츠 반복은 전방 및 역방향 전파 모두에서 사용되며, 행렬 역전파 이론을 기반으로 기울기를 유도한다.
반복 후 사후 보정을 적용하여 표현 품질을 유지하고, ResNet과 같은 깊은 아키텍처에서 최종 성능을 향상시킨다.
전체 과정은 오직 행렬 곱셈에 의존하므로 GPU 하드웨어에서 매우 병렬 처리 가능하고 효율적이다.
이 방법은 ResNet 기반 네트워크에 통합되며, 대규모(ImageNet) 및 소규모(미세한 계층) 훈련을 모두 지원한다.

실험 결과

연구 질문

RQ1뉴턴-슐츠 반복을 통한 반복적 행렬 제곱근 정규화가 EIG/SVD를 대체하여 글로벌 공분산 풀링 네트워크에서 더 빠르고 GPU 네이티브 훈련을 가능하게 할 수 있는가?
RQ2사전 정규화 및 사후 보정을 포함한 제안된 메타 레이어가 ResNet과 같은 깊은 네트워크에서 수렴성과 높은 성능를 보장하는가?
RQ3iSQRT-COV는 EIG/SVD 기반 방법보다 훨씬 빠르면서도 대규모 ImageNet 및 미세한 계층 벤치마크에서 최고 수준의 성능를 달성할 수 있는가?
RQ4iSQRT-COV의 성능는 KP, CBP, G2-DeNet과 같은 기존 두 번째 순서 풀링 방법과 비교해 정확도 및 표현 차원에서 어떻게 다른가?
RQ5iSQRT-COV에서 두 번째 순서 통계를 사용할 경우, 미세한 계층 시각 분류의 전이 학습에서 첫 번째 순서 풀링에 비해 얼마나 더 뛰어난 성능를 보이는가?

주요 결과

iSQRT-COV는 Birds, Aircrafts, Cars 등의 미세한 계층 벤치마크에서 이전 모든 방법들인 KP, CBP, G2-DeNet을 능가하는 최고 수준의 정확도를 달성한다.
ResNet-50를 사용할 경우, iSQRT-COV(8K)는 Birds, Aircrafts, Cars에서 각각 87.3%, 89.5%, 91.7%의 정확도를 기록하며, KP(14K)보다 각각 2.6%, 3.8%, 0.6% 높은 성능를 보인다.
ResNet-101를 사용할 경우, iSQRT-COV는 Birds, Aircrafts, Cars에서 각각 88.7%, 91.4%, 93.3%의 정확도를 기록하며, 세 벤치마크 모두에서 새로운 최고 수준의 결과를 수립한다.
ImageNet에서는 ResNet-50를 사용한 iSQRT-COV가 경쟁력 있는 상위-1 정확도를 달성하여 강력한 일반화 및 전이 가능성(transferability)을 입증한다.
효율적인 GPU 병렬 처리가 가능한 행렬 곱셈 덕분에, EIG/SVD 기반 대비 훨씬 적은 에포크 수에서 수렴한다.
2K 차원으로 압축된 경우에도 iSQRT-COV는 23.73%의 오차율을 유지하며, 전통적인 global average pooling을 사용한 표준 ResNet-50보다 뛰어난 성능를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.