QUICK REVIEW

[논문 리뷰] Is Second-order Information Helpful for Large-scale Visual Recognition?

Peihua Li, Jiangtao Xie|arXiv (Cornell University)|2017. 03. 23.

Advanced Neural Network Applications참고 문헌 25인용 수 31

한 줄 요약

이 논문은 대규모 시각 인식에서 2차 통계를 활용하기 위해 고수준 합성곱 특징의 공분산 풀링을 1차 풀링 대체 기법으로 제안하는 Matrix Power Normalized Covariance (MPN-COV)를 제시한다. 유도된 역전파 공식을 통해 엔드 투 엔드 학습을 가능하게 함으로써, AlexNet에서 4% 이상의 상위 1위 오차 감소를 달성하고, 단지 50층 네트워크를 사용하여 ResNet-152 수준의 성능을 달성함으로써 딥 러닝에서 고차 특징 통계의 가치를 입증한다.

ABSTRACT

By stacking layers of convolution and nonlinearity, convolutional networks (ConvNets) effectively learn from low-level to high-level features and discriminative representations. Since the end goal of large-scale recognition is to delineate complex boundaries of thousands of classes, adequate exploration of feature distributions is important for realizing full potentials of ConvNets. However, state-of-the-art works concentrate only on deeper or wider architecture design, while rarely exploring feature statistics higher than first-order. We take a step towards addressing this problem. Our method consists in covariance pooling, instead of the most commonly used first-order pooling, of high-level convolutional features. The main challenges involved are robust covariance estimation given a small sample of large-dimensional features and usage of the manifold structure of covariance matrices. To address these challenges, we present a Matrix Power Normalized Covariance (MPN-COV) method. We develop forward and backward propagation formulas regarding the nonlinear matrix functions such that MPN-COV can be trained end-to-end. In addition, we analyze both qualitatively and quantitatively its advantage over the well-known Log-Euclidean metric. On the ImageNet 2012 validation set, by combining MPN-COV we achieve over 4%, 3% and 2.5% gains for AlexNet, VGG-M and VGG-16, respectively; integration of MPN-COV into 50-layer ResNet outperforms ResNet-101 and is comparable to ResNet-152. The source code will be available on the project page: http://www.peihuali.org/MPN-COV

연구 동기 및 목표

딥 특징의 제2차 통계가 1차 풀링을 초월하여 대규모 시각 인식에 기여하는지 조사하기 위해.
고차원 특징의 소규모 샘플에서 강력한 공분산 추정의 과제를 해결하기 위해.
로그-유클리드 거리 척도에 의존하지 않고 공분산 행렬의 다양체 구조를 포착할 수 있는 미분 가능하고 엔드 투 엔드 학습 가능한 방법을 개발하기 위해.
제2차 통계를 통합함으로써 다양한 딥 네트워크 아키텍처에서 정확도를 크게 향상시킬 수 있음을 입증하기 위해.

제안 방법

1차 풀링의 대체로, 고수준 특징의 공분산 풀링으로 전환하는 미분 가능한 대안인 Matrix Power Normalized Covariance (MPN-COV)를 제안한다.
작은 표본 크기와 고차원에서의 공분산 추정을 안정화시키는 행렬 거듭제곱 정규화 기법을 도입한다.
행렬 미적분을 사용하여 MPN-COV 내 비선형 행렬 함수의 전방 및 역전파 규칙을 유도함으로써 딥 네트워크에서 엔드 투 엔드 학습을 가능하게 한다.
로그-유클리드 거리 척도의 계산적 및 수치적 결함을 피하기 위해 공분산 행렬 다양체의 기하학적 구조를 암묵적으로 활용한다.
최종 합성곱 레이어 뒤에 MPN-COV를 전역 풀링 레이어로 적용하고, 분류를 위해 완전 연결 레이어를 사용한다.
공분산 풀링 이전에 채널 차원을 줄이기 위해 $1\times1$ 합성곱을 활용함으로써 효율적인 계산과 더 나은 특징 표현을 가능하게 한다.

실험 결과

연구 질문

RQ1딥 특징의 제2차 통계가 대규모 시각 인식 작업에서 성능을 크게 향상시킬 수 있는가?
RQ2소수의 고차원 특징 샘플만 존재할 경우 강력한 공분산 추정이 가능한가?
RQ3로그-유클리드 거리 척도를 사용하지 않고도 공분산 행렬 다양체의 기하학적 구조를 딥 러닝에서 안정적이고 효율적으로 활용할 수 있는가?
RQ4MPN-COV가 대규모 환경에서 1차 풀링 및 기존의 제2차 방법(예: DeepO2P, B-CNN)보다 우월한가?
RQ5MPN-COV는 얕은 네트워크가 ResNet-101 및 ResNet-152와 같은 깊은 모델의 성능을 따라하거나 능가하도록 할 수 있는가?

주요 결과

ImageNet 2012 검증 세트에서, AlexNet에서 MPN-COV는 1차 풀링 대비 상위 1위 오차를 4.1% 감소시켰으며, 상위 1위 오차는 34.60%로 37.07% 대비 향상되었다.
VGG-M에서 MPN-COV는 1차 풀링 기반 29.62%의 상위 1위 오차를 26.55%로 감소시켰으며, 다른 초기화 방식에서도 37.07%에서 34.60%로 개선되었다.
VGG-16에서는 MPN-COV가 상위 1위 오차 24.68%를 기록했으며(10-크롭), 원본 VGG-16(27.41%)를 초월하고 GoogleNet 및 PReLU-net B와 동등하거나 뛰어난 성능을 보였다.
ResNet-50에 통합된 MPN-COV는 상위 1위 오차를 1-크롭 기준 24.95%에서 22.73%로 감소시키며, 10-크롭 기준 22.85%에서 21.20%로 향상되었고, ResNet-101를 초월하고 ResNet-152와 유사한 성능을 보였다.
MPN-COV 네트워크는 훈련 중 더 빠른 수렴을 보였으며, 60번째 에포크에 상위 1위 오차 18.02%를 기록한 반면 기준 ResNet-50는 25.98%였다.
MPN-COV는 50층의 ResNet이 152층의 ResNet 수준의 성능을 달성할 수 있도록 함으로써, 제2차 통계가 깊이를 보완할 수 있음을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.