Skip to main content
QUICK REVIEW

[论文解读] Multi-Bias Non-linear Activation in Deep Neural Networks

Hongyang Li, Wanli Ouyang|arXiv (Cornell University)|Apr 3, 2016
Video Surveillance and Tracking Methods参考文献 17被引用 46
一句话总结

该论文提出了一种多偏置非线性激活(MBA)层,通过共享卷积核和多个可学习偏置,将特征图响应按响应幅度范围解耦为多个带宽图。通过实现对不同幅度带响应的选择性保留,MBA在计算成本极低的情况下增强了特征表示的灵活性,在使用数据增强的情况下,于CIFAR-10(5.38%错误率)和SVHN(1.80%错误率)上实现了最先进性能。

ABSTRACT

As a widely used non-linear activation, Rectified Linear Unit (ReLU) separates noise and signal in a feature map by learning a threshold or bias. However, we argue that the classification of noise and signal not only depends on the magnitude of responses, but also the context of how the feature responses would be used to detect more abstract patterns in higher layers. In order to output multiple response maps with magnitude in different ranges for a particular visual pattern, existing networks employing ReLU and its variants have to learn a large number of redundant filters. In this paper, we propose a multi-bias non-linear activation (MBA) layer to explore the information hidden in the magnitudes of responses. It is placed after the convolution layer to decouple the responses to a convolution kernel into multiple maps by multi-thresholding magnitudes, thus generating more patterns in the feature space at a low computational cost. It provides great flexibility of selecting responses to different visual patterns in different magnitude ranges to form rich representations in higher layers. Such a simple and yet effective scheme achieves the state-of-the-art performance on several benchmarks.

研究动机与目标

  • 解决ReLU及其变体在层级特征学习中因丢弃潜在有用的低幅度响应而带来的局限性,这些响应可能代表有意义的模式。
  • 减少因学习具有相似卷积核但不同偏置的多个滤波器以捕捉不同响应范围而引起的模型复杂度和冗余。
  • 探索卷积特征响应幅度中被低估的判别性信息,以实现更丰富、更灵活的特征表示。
  • 设计一种轻量化、计算高效的激活机制,在不增加网络深度或参数量的前提下增强表示能力。

提出的方法

  • MBA层插入在卷积层之后,对单个特征图应用多个不同的偏置项,根据响应幅度范围有效将其分割为多个带宽图。
  • 每个偏置项作为阈值,生成独立的类似二值化的激活图,其中高于阈值的响应被保留,其余被抑制。
  • 所有偏置分支共享同一卷积核,避免了冗余滤波器的需要,降低了参数和计算开销。
  • 各带宽图独立生成,使后续各层可分别关注不同响应幅度范围,以检测多样的视觉模式。
  • 该方法与Maxout正交:Maxout将K个特征图合并为一个,而MBA将一个图拆分为K个带宽图,以极低代价实现更丰富的表示。
  • 最终网络使用单个卷积核和多个偏置值,输出通过拼接或作为独立通道处理,以支持高层特征学习。

实验结果

研究问题

  • RQ1卷积特征图中的响应幅度是否包含超越简单阈值化的判别性信息?若存在,能否被利用以改善表示学习?
  • RQ2使用共享卷积核将单个特征图按幅度解耦为多个带宽图,是否相比标准ReLU网络能提升性能?
  • RQ3多偏置激活机制能否减少对冗余滤波器的需求,同时保持或提升分类准确率?
  • RQ4与ReLU、ELU和Maxout等其他最先进激活函数相比,MBA层在准确率和参数效率方面表现如何?

主要发现

  • 所提出的MBA模型在使用数据增强的CIFAR-10上达到5.38%的测试错误率,相比之前最先进方法绝对提升1.17%。
  • 在使用数据增强的CIFAR-100上,MBA模型达到24.1%的测试错误率,相比之前最先进方法绝对提升0.18%。
  • 在无数据增强情况下,MBA模型在CIFAR-10上达到6.73%错误率,在CIFAR-100上达到26.14%,相比之前SOTA在CIFAR-10上相对提升29.8%。
  • 在SVHN数据集上,MBA模型在无数据增强情况下达到1.80%的测试错误率,优于大多数先前方法,包括DropConnect(1.94%)和DSN(1.92%)。
  • MBA层通过保留并分离多个幅度带的响应,实现了更丰富的特征空间表示,使后续层能够选择性地利用与不同视觉模式相关的信息。
  • 该方法在不增加网络深度或使用激进数据增强的情况下实现卓越性能,证明了其在表示学习中的高效性与有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。