[논문 리뷰] Evolving Normalization-Activation Layers
본 논문은 정규화와 활성화를 하나의 탐색 공간으로 통합하고 거부 프로토콜과 다중 아키텍처 평가를 통한 진화를 사용하여 EvoNorms를 발견한다. EvoNorms는 CNN 백본과 태스크 전반에 일반화되는 새로운 정규화-활성화 계층이다.
Normalization layers and activation functions are fundamental components in deep networks and typically co-locate with each other. Here we propose to design them using an automated approach. Instead of designing them separately, we unify them into a single tensor-to-tensor computation graph, and evolve its structure starting from basic mathematical functions. Examples of such mathematical functions are addition, multiplication and statistical moments. The use of low-level mathematical functions, in contrast to the use of high-level modules in mainstream NAS, leads to a highly sparse and large search space which can be challenging for search methods. To address the challenge, we develop efficient rejection protocols to quickly filter out candidate layers that do not work well. We also use multi-objective evolution to optimize each layer's performance across many architectures to prevent overfitting. Our method leads to the discovery of EvoNorms, a set of new normalization-activation layers with novel, and sometimes surprising structures that go beyond existing design patterns. For example, some EvoNorms do not assume that normalization and activation functions must be applied sequentially, nor need to center the feature maps, nor require explicit activation functions. Our experiments show that EvoNorms work well on image classification models including ResNets, MobileNets and EfficientNets but also transfer well to Mask R-CNN with FPN/SpineNet for instance segmentation and to BigGAN for image synthesis, outperforming BatchNorm and GroupNorm based layers in many cases.
연구 동기 및 목표
- 정규화와 활성화 계층을 개별적으로 다루기보다 함께 설계하는 동기를 부여한다.
- 저수준 수학 연산을 사용하여 새로운 빌딩 블록을 탐색하기 위한 텐서-대-텐서 계산 그래프를 형식화한다.
- 희소한 탐색 공간을 다루고 교차 아키텍처 일반화를 촉진하기 위해 거부 프로토콜과 다목적 진화를 개발한다.
- EvoNorms를 발견하고 이미지 분류, 인스턴스 분할, GAN 학습 전반에서 그 효과를 입증한다.
제안 방법
- 정규화와 활성화를 기초 연산(addition, multiplication, moments 등)으로 구성된 단일 계산 그래프로 통합한다.
- 레이어를 입력 및 학습 가능 상수를 포함하여 고정된 노드 예산과 14개의 총 노드를 갖는 DAG로 표현한다.
- 진화 과정에서 공간을 탐색하기 위해 무작위 그래프 생성과 세 단계 돌연변이를 사용한다.
- 질/안정성 두 가지 거부 프로토콜을 적용하여 조잡하거나 불안정한 레이어를 조기에 가지치기한다.
- 교차 아키텍처 일반화를 강제하기 위해 후보를 여러 앵커 아키텍처(ResNet-50, MobileNetV2, EfficientNet-B0)에서 평가한다.
- 진화를 유도하기 위해 다목적 토너먼트 선택(평균 대 Pareto 프런티어)을 수행한다.
- ImageNet에서 상위 레이어를 재랭크하고 교차 도메인 전이를 위해 COCO(Mask R-CNN) 및 BigGAN에서 검증한다.
실험 결과
연구 질문
- RQ1저수준 수학 연산에서 정규화와 활성화를 효과적으로 함께 발견할 수 있는가?
- RQ2EvoNorms는 분류를 넘어 다양한 아키텍처와 태스크에 일반화되는가?
- RQ3희소하고 고차원 NAS 공간에서 효과적인 탐색 전략(거부 프로토콜 및 다중 아키텍처 평가)은 무엇인가?
주요 결과
| 레이어 | R-50 | MV2 | MN | EN-B0 | EN-B5 |
|---|---|---|---|---|---|
| BN-ReLU | 76.3 ±0.1 | 76.2 ±0.1 | 77.6 ±0.1 | 77.7 ±0.1 | 73.4 ±0.1 |
| BN-SiLU/Swish | 76.6 ±0.1 | 77.3 ±0.1 | 78.2 ±0.1 | 78.2 ±0.0 | 74.5 ±0.1 |
| Random | 0.001 | 0.001 | 0.001 | 0.001 | 0.001 |
| Random + rej | 71.7 ±0.2 | 70.8 ±0.1 | 63.6 ±18.9 | 55.3 ±17.5 | 1e-3 |
| RS + rej | 75.8 ±0.1 | 76.3 ±0.0 | 77.4 ±0.1 | 77.5 ±0.1 | 73.5 ±0.1 |
| EvoNorm-B0 | 76.6 ±0.0 | 77.7 ±0.1 | 77.9 ±0.1 | 78.4 ±0.1 | 75.0 ±0.1 |
| EvoNorm-B1 | 76.1 ±0.1 | 77.5 ±0.0 | 77.7 ±0.0 | 78.0 ±0.1 | 74.6 ±0.1 |
| EvoNorm-B2 | 76.6 ±0.2 | 77.7 ±0.1 | 78.0 ±0.1 | 78.4 ±0.1 | 74.6 ±0.1 |
- EvoNorms는 ImageNet에서 여러 아키텍처(ResNet, MobileNetV2, EfficientNet) 전반에 걸쳐 BN-ReLU를 일관되게 능가한다.
- Batch-의존 EvoNorms(B-시리즈)는 BN-ReLU 및 GN-ReLU 조합 대비 Mask R-CNN COCO 인스턴스 분할에서 강한 향상을 보인다.
- Batch-독립 EvoNorms(S-시리즈)는 다양한 배치 크기에서 GN-ReLU 및 FRN보다 경쟁력 있거나 더 나은 성능을 보이며, 배치 통계가 사용할 수 없을 때도 견고한 성능을 보인다.
- EvoNorm-B0은 분모에 배치 및 인스턴스 통계를 결합하고 명시적 활성화 함수를 생략할 수 있어 비전형적이지만 효과적인 설계 패턴을 보여준다.
- EvoNorms는 비분류 태스크로도 효과적으로 일반화된다: 향상된 Mask R-CNN AP 지표와 경쟁력 있는 BigGAN IS/FID 결과를 보이며 강한 일반화를 시사한다.
- 분석에 따르면 EvoNorms는 종종 스케일-불변성을 촉진하고 혼합 분산 및 텐서-대-텐서 변환을 포함하여 전통적인 정규화를 넘어서는 설계 원칙을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.