QUICK REVIEW

[논문 리뷰] Global Second-order Pooling Convolutional Networks

Zilin Gao, Jiangtao Xie|arXiv (Cornell University)|2018. 11. 29.

Advanced Neural Network Applications참고 문헌 28인용 수 29

한 줄 요약

이 논문은 전반적인 제2차 통계를 캡처하여 비선형 표현 학습을 향상시키기 위해 깊은 ConvNets의 여러 계층에 글로벌 제2차 풀링(GSoP) 블록을 통합하는 글로벌 제2차 풀링 컨volution 네트워크(GSoP-Net)를 제안한다. 중간 계층의 특징 맵에 GSoP를 적용하고, 학습된 공분산 행렬을 채널별 특징 재조정에 사용함으로써, 계산 비용을 최소화하면서 ImageNet-1K 및 CIFAR-100에서 최신 기준 성능을 달성한다.

ABSTRACT

Deep Convolutional Networks (ConvNets) are fundamental to, besides large-scale visual recognition, a lot of vision tasks. As the primary goal of the ConvNets is to characterize complex boundaries of thousands of classes in a high-dimensional space, it is critical to learn higher-order representations for enhancing non-linear modeling capability. Recently, Global Second-order Pooling (GSoP), plugged at the end of networks, has attracted increasing attentions, achieving much better performance than classical, first-order networks in a variety of vision tasks. However, how to effectively introduce higher-order representation in earlier layers for improving non-linear capability of ConvNets is still an open problem. In this paper, we propose a novel network model introducing GSoP across from lower to higher layers for exploiting holistic image information throughout a network. Given an input 3D tensor outputted by some previous convolutional layer, we perform GSoP to obtain a covariance matrix which, after nonlinear transformation, is used for tensor scaling along channel dimension. Similarly, we can perform GSoP along spatial dimension for tensor scaling as well. In this way, we can make full use of the second-order statistics of the holistic image throughout a network. The proposed networks are thoroughly evaluated on large-scale ImageNet-1K, and experiments have shown that they outperformed non-trivially the counterparts while achieving state-of-the-art results.

연구 동기 및 목표

기존의 깊은 ConvNets가 네트워크의 끝부분에서만 제2차 통계를 활용하는 데에 한계가 있음을 해결하기 위해, 고차원 모델링을 더 이른 계층으로 확장한다.
글로벌 제2차 풀링을 통해 장거리 통계적 종속성을 캡처함으로써, 깊은 네트워크의 비선형 모델링 능력을 향상시킨다.
기존 아키텍처인 ResNet, Inception, DenseNet 등에 쉽게 통합할 수 있는 모듈형이고 효율적인 GSoP 블록을 설계한다.
초기 단계에서 제2차 통계를 통합할 경우, SE-Net 및 CBAM과 같은 제1차 방법보다 더 분류 능력이 뛰어난 표현을 얻을 수 있음을 경험적으로 검증한다.

제안 방법

GSoP 블록은 컨볼루션 레이어에서 유도된 3차원 특징 텐서를 취하고, 공간 차원과 채널 차원을 기준으로 글로벌 제2차 풀링을 적용하여 공분산 행렬을 계산한다.
결과로 도출된 공분산 행렬은 1×1 컨볼루션과 비선형 활성화(ReLU)를 통해 임bedding되며, 채널별 주의 맵을 생성한다.
이 주의 맵은 원본 특징 텐서를 채널 차원에 따라 스케일링하는 데 사용되어, 제2차 통계를 반영한 특징 재조정을 가능하게 한다.
이 방법은 공간 및 채널 차원을 모두 대상으로 GSoP를 지원하여 네트워크의 여러 단계에 민첩하게 통합할 수 있다.
ResNet 기반 아키텍처에서는 각 잔차 스테이지에 한 번씩 GSoP 블록을 삽입하여 파라미터 및 FLOP 증가를 최소화한다.
표준 최적화를 사용하여 엔드 투 엔드로 네트워크를 훈련시키며, 블록 배치 및 하이퍼파ram터 민감도 분석을 위한 추론 연구를 수행한다.

실험 결과

연구 질문

RQ1깊은 ConvNets의 중간 계층에 글로벌 제2차 풀링을 통합하면 네트워크 끝부분의 풀링을 넘어서 표현 학습 성능을 향상시킬 수 있는가?
RQ2제1차 통계(예: 글로벌 평균 풀링)와 비교할 때, 제2차 통계를 초기 및 중간 계층에서 사용할 경우 분류 능력은 어떻게 달라지는가?
RQ3네트워크의 다양한 깊이에 GSoP 블록을 위치시킬 경우 최종 정확도와 특징 품질에 어떤 영향을 미치는가?
RQ4제안된 GSoP 블록은 SE-Net 및 CBAM과 같은 기존 주의 메커니즘과 비교해 장거리 맥락적 종속성을 얼마나 잘 포착하는가?

주요 결과

ImageNet-1K에서 GSoP-Net2는 상위-1 오차율 20.94%를 기록하여, SE-Net(21.31%) 및 CBAM을 비해 유의미한 격차로 앞서며 성능을 뛰어넘었다.
GSoP-Net2는 네트워크 끝부분의 공분산 풀링을 사용하는 강력한 SOTA 기준인 iSQRT-COV보다 상위-1 오차율에서 1.36%포인트 향상시켰다.
CIFAR-100에서 GSoP-Net2는 오차율을 18.58%로 낮추었으며, 기존 ResNet-164 기준보다 5.75% 향상되었고, iSQRT-COV를 1.37%포인트 뛰어넘었다.
추론 연구를 통해 초기 단계에 GSoP 블록을 삽입할 경우 성능 향상이 뚜렷하며, 상당한 성능 향상을 얻기 위해 단지 4개의 블록만으로도 충분함을 확인했다.
제안된 GSoP 블록은 매우 모듈형이며, 계산 비용을 최소화하며, ImageNet에서 GSoP-Net2의 경우 뿐만 아니라 총 360만 파라미터와 0.58 GFLOPs의 추가 계산량을 유발한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.