QUICK REVIEW

[논문 리뷰] Multi-Bias Non-linear Activation in Deep Neural Networks

Hongyang Li, Wanli Ouyang|arXiv (Cornell University)|2016. 04. 03.

Video Surveillance and Tracking Methods참고 문헌 17인용 수 46

한 줄 요약

이 논문은 공유된 컨볼루션 커널과 다수의 학습 가능한 편향을 사용하여 응답의 크기 범위에 따라 특징 맵을 여러 밴드 맵으로 분리하는 다중편향 비선형 활성화(Multi-Bias Non-linear Activation, MBA) 레이어를 제안한다. 다양한 크기 범위에서의 응답을 선택적으로 유지함으로써 MBA는 최소한의 계산 비용으로 특징 표현의 유연성을 향상시키며, 데이터 증강을 사용할 경우 CIFAR-10(5.38% 오차)과 SVHN(1.80% 오차)에서 최신 기준 성능을 달성한다.

ABSTRACT

As a widely used non-linear activation, Rectified Linear Unit (ReLU) separates noise and signal in a feature map by learning a threshold or bias. However, we argue that the classification of noise and signal not only depends on the magnitude of responses, but also the context of how the feature responses would be used to detect more abstract patterns in higher layers. In order to output multiple response maps with magnitude in different ranges for a particular visual pattern, existing networks employing ReLU and its variants have to learn a large number of redundant filters. In this paper, we propose a multi-bias non-linear activation (MBA) layer to explore the information hidden in the magnitudes of responses. It is placed after the convolution layer to decouple the responses to a convolution kernel into multiple maps by multi-thresholding magnitudes, thus generating more patterns in the feature space at a low computational cost. It provides great flexibility of selecting responses to different visual patterns in different magnitude ranges to form rich representations in higher layers. Such a simple and yet effective scheme achieves the state-of-the-art performance on several benchmarks.

연구 동기 및 목표

계층적 특징 학습에서 의미 있는 패턴을 나타낼 수 있는 잠재적으로 유용한 낮은 크기의 응답을 제거하는 ReLU 및 그 변형의 한계를 해결하기 위해.
유사한 커널을 가진 다수의 필터를 학습하여 서로 다른 응답 범위를 캡처함으로써 발생하는 모델 복잡성과 중복을 줄이기 위해.
컨볼루션 특징 응답의 크기에 잠재적으로 활용되지 않은 분류 정보를 탐색하여 더 풍부하고 더 유연한 특징 표현을 가능하게 하기 위해.
네트워크 깊이나 파rameter 수를 늘리지 않고도 표현 능력을 향상시킬 수 있는 경량이며 계산 효율적인 활성화 메커니즘을 설계하기 위해.

제안 방법

MBA 레이어는 컨볼루션 레이어 다음에 삽입되며, 하나의 특징 맵에 대해 다수의 서로 다른 편향 항목을 적용하여 응답 크기의 범위에 따라 효과적으로 여러 밴드 맵으로 분할한다.
각 편향 항목은 별도의 이진 유사 활성 맵을 생성하기 위한 임계값으로 작용하며, 이에 따라 임계값을 초과하는 응답은 유지되고, 나머지는 억제된다.
모든 편향 브랜치에서 동일한 컨볼루션 커널을 공유함으로써 중복된 필터가 필요 없게 되어 파rameter 및 계산 오버헤드를 줄인다.
각 밴드 맵은 각각의 편향에 대해 독립적으로 생성되므로, 이후의 다른 레이어들이 다양한 응답 크기 범위에 주목하여 다양한 시각적 패턴을 탐지할 수 있다.
이 방법은 maxout와 수직적이다. maxout는 K개의 특징 맵을 하나로 조합하지만, MBA는 하나의 맵을 K개의 밴드 맵으로 분할함으로써 최소한의 비용으로 더 rich한 표현을 가능하게 한다.
최종 네트워크는 다수의 편향 값이 있는 단일 컨볼루션 커널을 사용하며, 출력은 채널으로 별도로 처리되거나 연결되어 고차원 특징 학습에 활용된다.

실험 결과

연구 질문

RQ1컨볼루션 특징 맵의 응답 크기 범위는 단순한 임계값 처리를 넘어서 분류 정보를 담고 있을 수 있으며, 만약 그렇다면 이를 표현 학습 향상에 활용할 수 있는가?
RQ2공유된 커널을 사용하여 단일 특징 맵을 크기 기반의 여러 밴드 맵으로 분리하는 방식이 기존 ReLU 기반 네트워크보다 성능 향상에 기여하는가?
RQ3다중편향 활성화 메커니즘이 중복된 필터의 필요성을 줄일 수 있으며, 분류 정확도를 유지하거나 향상시킬 수 있는가?
RQ4ReLU, ELU, maxout와 같은 다른 최신 기준 활성화 함수와 비교했을 때 MBA 레이어의 정확도와 파rameter 효율성은 어떠한가?

주요 결과

제안된 MBA 모델은 데이터 증강을 사용할 경우 CIFAR-10에서 테스트 오차 5.38%를 기록하여 이전 최신 기준 성능보다 절대적 차이 1.17%로 승리한다.
데이터 증강을 사용한 CIFAR-100에서 MBA 모델은 테스트 오차 24.1%를 기록하며, 이는 이전 최신 기준 대비 절대적 개선 0.18%에 해당한다.
데이터 증강 없이도 MBA 모델은 CIFAR-10에서 6.73% 오차, CIFAR-100에서 26.14% 오차를 기록하며, 이는 이전 최신 기준 대비 CIFAR-10에서 상대적 개선 29.8%를 기록한다.
SVHN 데이터셋에서 MBA 모델은 데이터 증강 없이도 테스트 오차 1.80%를 기록하며, DropConnect(1.94%) 및 DSN(1.92%)를 포함한 대부분의 이전 방법보다 뛰어난 성능을 보였다.
MBA 레이어는 여러 크기 밴드에 걸친 응답을 유지하고 분리함으로써 더 풍부한 특징 공간 표현을 가능하게 하여, 이후 레이어가 다양한 시각적 패턴에 관련된 정보를 선택적으로 사용할 수 있도록 한다.
이 방법은 네트워크 깊이를 늘리거나 강력한 데이터 증강을 사용하지 않아도 우수한 성능을 달성함으로써 표현 학습에서의 효율성과 효과성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.