QUICK REVIEW

[논문 리뷰] Generalizing Pooling Functions in Convolutional Neural Networks: Mixed, Gated, and Tree

Chen‐Yu Lee, Patrick W. Gallagher|arXiv (Cornell University)|2015. 09. 29.

Neural Networks and Applications참고 문헌 30인용 수 312

한 줄 요약

이 논문은 컨volutional 네트워크(CNNs)에서 기존의 최대 풀링과 평균 풀링을 일반화하여 데이터에 따라 적응적인 조합을 학습하는 세 가지 새로운 미분 가능한 풀링 함수—혼합 최대-평균, 게이트 최대-평균, 트리 풀링—을 제안한다. 이러한 방법들은 최소한의 계산 부담과 파rameter 수의 약간 증가로 다수의 벤치마크에서 성능을 향상시키며, MNIST, CIFAR10, SVHN에서 최신 기술 수준의 성능을 기록한다.

ABSTRACT

We seek to improve deep neural networks by generalizing the pooling operations that play a central role in current architectures. We pursue a careful exploration of approaches to allow pooling to learn and to adapt to complex and variable patterns. The two primary directions lie in (1) learning a pooling function via (two strategies of) combining of max and average pooling, and (2) learning a pooling function in the form of a tree-structured fusion of pooling filters that are themselves learned. In our experiments every generalized pooling operation we explore improves performance when used in place of average or max pooling. We experimentally demonstrate that the proposed pooling operations provide a boost in invariance properties relative to conventional pooling and set the state of the art on several widely adopted benchmark datasets; they are also easy to implement, and can be applied within various deep neural network architectures. These benefits come with only a light increase in computational overhead during training and a very modest increase in the number of model parameters.

연구 동기 및 목표

고정된 최대 풀링과 평균 풀링을 초월하여 풀링 연산을 일반화함으로써 딥 네트워크의 성능을 향상시키기.
특징 맵 내 복잡하고 변화하는 패턴에 적응하여 풀링 함수가 학습하고 조정할 수 있도록 하기.
백프로파게이션과 호환되는, 다양한 학습 가능한 풀링 메커니즘을 설계하기.
트리 구조적 아키텍처를 통해 풀링 필터의 계층적, 학습 가능한 융합을 탐색하기.
일반화된 풀링이 다양한 아키텍처와 데이터셋에서 불변성과 성능 향상에 기여하는지 입증하기.

제안 방법

학습 가능한 고정 가중치 융합을 통해 최대 풀링과 평균 풀링을 조합하는 비반응 전략인 혼합 최대-평균 풀링을 제안한다.
최대 풀링과 평균 풀링 출력을 동적으로 가중치 조정하는 학습 가능한 게이트 메커니즘을 사용하는 반응형 변종인 게이트 최대-평균 풀링을 도입한다.
각 잎 노드에 학습 가능한 풀링 필터가 포함되고 내부 노드가 자식 출력을 미분 가능한 방식으로 융합하는 계층적, 미분 가능한 구조인 트리 풀링을 개발한다.
학습 가능한 혼합 가중치를 갖는 사전 지정된 이진 트리 구조를 사용하여 백프로파게이션을 통한 엔드 투 엔드 학습을 가능하게 한다.
LSTM 게이트에서 영감을 얻은 소프트, 미분 가능한 게이팅 메커니즘을 적용하여 풀링 연산을 통한 기울기 흐름을 허용한다.
AlexNet, GoogLeNet, NiN, DSN과 같은 표준 CNN 아키텍처에 제안된 풀링 레이어를 최소한의 아키텍처 변경으로 즉시 통합한다.

실험 결과

연구 질문

RQ1풀링 연산을 고정된 최대 풀링과 평균 풀링을 초월하여 CNN 내 특징 표현을 향상시키기 위해 일반화할 수 있는가?
RQ2최대 풀링과 평균 풀링을 조합하는 방식을 학습함으로써 정적 풀링보다 더 나은 성능과 불변성을 달성할 수 있는가?
RQ3다양한 학습 가능한 트리 구조적 융합 방식이 복잡한 시각 인식 작업에서 전통적 풀링 방식을 능가할 수 있는가?
RQ4데이터 증강, 배치 정규화, 다중 시각 추론과 같은 최신 기술과 결합했을 때 제안된 일반화된 풀링의 성능은 어떠한가?
RQ5대규모 모델인 ImageNet에서 표준 풀링과 비교해 학습 가능한 풀링 함수의 계산 비용과 파rameter 수는 얼마나 되는가?

주요 결과

각 레이어당 하나의 트리+최대-평균 풀링이 MNIST(0.31% 오차), CIFAR10(7.62% 오차), SVHN(1.69% 오차)에서 최신 기술 수준의 성능을 달성하며, 표준 풀링 및 이전 방법들을 능가한다.
데이터 증강을 적용한 CIFAR10에서 오차율이 6.05%로 감소하여, 학습 가능한 활성화 함수를 사용한 FitNet 및 NiN의 이전 최신 기술 수준 결과를 초월한다.
ImageNet 2012에서 AlexNet에 최대 풀링을 트리 풀링과 게이트 최대-평균 풀링으로 교체하면 단일 시각 평가에서 상위 5위 오차율이 6% 상대적으로 감소(19.9%에서 18.7%)한다.
GoogLeNet에서는 다중 시각 설정에서 동일한 수정으로 상위 5위 오차율이 5% 감소(9.15%에서 8.93%)하여 다양한 아키텍처에 대한 일반화 능력을 입증한다.
학습 시간은 5~15%만 추가로 소요되며, 네트워크당 50개 미만의 파rameter만 추가되어 성능 향상에도 불구하고 계산적으로 효율적이다.
채널별, 영역별 혼합 최대-평균 전략(40,960개 파arameter)을 사용하면 SVHN에서 새로운 최신 기술 수준의 오차율 1.64%를 달성하여 고비용 파arameter 비용에서도 확장성과 효과성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.