Skip to main content
QUICK REVIEW

[论文解读] Evolving Normalization-Activation Layers

Hanxiao Liu, Andrew Brock|arXiv (Cornell University)|Apr 6, 2020
Advanced Neural Network Applications参考文献 67被引用 54
一句话总结

本论文将归一化与激活统一到一个搜索空间,并通过带拒绝协议的进化与多体系架构评估来发现 EvoNorms——可跨 CNN 骨干和任务泛化的新型归一化-激活层。

ABSTRACT

Normalization layers and activation functions are fundamental components in deep networks and typically co-locate with each other. Here we propose to design them using an automated approach. Instead of designing them separately, we unify them into a single tensor-to-tensor computation graph, and evolve its structure starting from basic mathematical functions. Examples of such mathematical functions are addition, multiplication and statistical moments. The use of low-level mathematical functions, in contrast to the use of high-level modules in mainstream NAS, leads to a highly sparse and large search space which can be challenging for search methods. To address the challenge, we develop efficient rejection protocols to quickly filter out candidate layers that do not work well. We also use multi-objective evolution to optimize each layer's performance across many architectures to prevent overfitting. Our method leads to the discovery of EvoNorms, a set of new normalization-activation layers with novel, and sometimes surprising structures that go beyond existing design patterns. For example, some EvoNorms do not assume that normalization and activation functions must be applied sequentially, nor need to center the feature maps, nor require explicit activation functions. Our experiments show that EvoNorms work well on image classification models including ResNets, MobileNets and EfficientNets but also transfer well to Mask R-CNN with FPN/SpineNet for instance segmentation and to BigGAN for image synthesis, outperforming BatchNorm and GroupNorm based layers in many cases.

研究动机与目标

  • 催化归一化与激活层的联合设计,而非分开处理。
  • 使用低级数学运算将张量到张量的计算图形式化,以搜索新的构建块。
  • 开发拒绝协议和多目标进化,以应对稀疏搜索空间并促进跨架构的泛化。
  • 发现 EvoNorms 并在图像分类、实例分割和 GAN 训练等任务中展示其有效性。

提出的方法

  • 将归一化和激活统一为一个由原语运算(加法、乘法、矩、等)构建的计算图。
  • 将层表示为具有固定节点预算的有向无环图(DAG),总节点数为 14,包括输入和可训练常量。
  • 在进化过程中使用随机图生成和三步变异来探索空间。
  • 应用两种拒绝协议(质量与稳定性)在早期剔除差劣或不稳定的层。
  • 在多个锚架构(ResNet-50、MobileNetV2、EfficientNet-B0)上评估候选方案,以强制跨架构泛化。
  • 执行多目标锦标赛选择(平均值对帕累托前沿)来引导进化。
  • 在 ImageNet 上重新排序前几层并在 COCO(Mask R-CNN)和 BigGAN 上验证以实现跨域迁移。

实验结果

研究问题

  • RQ1归一化和激活能否从低级数学运算中有效地联合发现?
  • RQ2EvoNorms 是否能在超越分类任务的多样架构中泛化?
  • RQ3哪些搜索策略(拒绝协议与多体系架构评估)在稀疏、高维 NAS 空间中有效?

主要发现

LayerR-50MV2MNEN-B0EN-B5
BN-ReLU76.3 ±0.176.2 ±0.177.6 ±0.177.7 ±0.173.4 ±0.1
BN-SiLU/Swish76.6 ±0.177.3 ±0.178.2 ±0.178.2 ±0.074.5 ±0.1
Random0.0010.0010.0010.0010.001
Random + rej71.7 ±0.270.8 ±0.163.6 ±18.955.3 ±17.51e-3
RS + rej75.8 ±0.176.3 ±0.077.4 ±0.177.5 ±0.173.5 ±0.1
EvoNorm-B076.6 ±0.077.7 ±0.177.9 ±0.178.4 ±0.175.0 ±0.1
EvoNorm-B176.1 ±0.177.5 ±0.077.7 ±0.078.0 ±0.174.6 ±0.1
EvoNorm-B276.6 ±0.277.7 ±0.178.0 ±0.178.4 ±0.174.6 ±0.1
  • EvoNorms 在多种架构的 ImageNet 上持续优于 BN-ReLU(包括 ResNet、MobileNetV2、EfficientNet)。
  • 基于批量的 EvoNorms(B 系列)在 Mask R-CNN COCO 实例分割任务上对 BN-ReLU 与 GN-ReLU 组合显示出显著提升。
  • 基于批量无关的 EvoNorms(S 系列)在不同批量大小下都达到具竞争力甚至更好的 GN-ReLU 与 FRN 结果,在没有批量统计信息时表现稳定。
  • EvoNorm-B0 在分母中结合了批量和实例统计,并且可以省略显式激活函数,展示非标准但有效的设计模式。
  • EvoNorms 能有效迁移到非分类任务:提升了 Mask R-CNN 的 AP 指标,并在 BigGAN 的 IS/FID 上表现具有竞争力,表明具强泛化性。
  • 分析表明 EvoNorms 常促进尺度不变性并包含混合方差与张量到张量的变换,提示超越传统归一化的设计原则。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。