Skip to main content
QUICK REVIEW

[论文解读] Regularisation in neural networks: a survey and empirical analysis of approaches

Christiaan P. Opperman, Anna Sergeevna Bosman|arXiv (Cornell University)|Jan 30, 2026
Advanced Neural Network Applications被引用 0
一句话总结

论文综述了神经网络的正则化技术,给出四分类的分类法,讨论相互作用/矛盾,并在多数据集和架构上进行实证测试以评估数据集/任务相关的有效性。

ABSTRACT

Despite huge successes on a wide range of tasks, neural networks are known to sometimes struggle to generalise to unseen data. Many approaches have been proposed over the years to promote the generalisation ability of neural networks, collectively known as regularisation techniques. These are used as common practice under the assumption that any regularisation added to the pipeline would result in a performance improvement. In this study, we investigate whether this assumption holds in practice. First, we provide a broad review of regularisation techniques, including modern theories such as double descent. We propose a taxonomy of methods under four broad categories, namely: (1) data-based strategies, (2) architecture strategies, (3) training strategies, and (4) loss function strategies. Notably, we highlight the contradictions and correspondences between the approaches in these broad classes. Further, we perform an empirical comparison of the various regularisation techniques on classification tasks for ten numerical and image datasets applied to the multi-layer perceptron and convolutional neural network architectures. Results show that the efficacy of regularisation is dataset-dependent. For example, the use of a regularisation term only improved performance on numeric datasets, whereas batch normalisation improved performance on image datasets only. Generalisation is crucial to machine learning; thus, understanding the effects of applying regularisation techniques, and considering the connections between them is essential to the appropriate use of these methods in practice.

研究动机与目标

  • 将正则化技术分为四大类(基于数据、基于架构、基于训练和基于损失函数的策略)的分类法。
  • 总结每种技术的原理并提供实现指南与文献参考。
  • 突出技术之间的矛盾与对应关系,帮助实际决策。
  • 在多个数据集和神经网络架构上对选定的正则化方法进行实证比较,以评估泛化改进与局限性。
  • 评估正则化有效性如何随数据集类型和模型规模而变化,以挑战普适性假设。

提出的方法

  • 提出具有子类别及跨类别关系的正则化技术分类法。
  • 为每种技术提供原理与实现细节的参考文献。
  • 在两种神经网络架构(多层感知器 MLP 与卷积神经网络 CNN)上对十个数值和图像数据集进行基准测试。
  • 评估包括:几何变换、SMOTE、权重扰动、剪枝、丢弃、批量归一化、层归一化、权重归一化,以及正则化项。
  • 讨论技术之间的相互作用与潜在冲突及其对实践的影响。
  • 参考损失景观的二次/平坦性等经验观察及相关正则化文献中的观测。
Figure 1 : A tree representation of the proposed taxonomy of regularisation methods.
Figure 1 : A tree representation of the proposed taxonomy of regularisation methods.

实验结果

研究问题

  • RQ1正则化技术是否在数据集和架构上普遍提升泛化能力?
  • RQ2基于数据、基于架构、基于训练、基于损失的正则化方法如何相互作用或发生冲突?
  • RQ3在何种条件(数据集类型、模型规模)下某些正则化方法会带来好处或损害泛化?
  • RQ4双曲线下降与过参数化等现象如何影响正则化技术的有效性?

主要发现

  • 正则化有效性依赖数据集,并非普遍有益。
  • 某些方法(如批量归一化)在图像数据集上提升性能,而其他正则化在数值数据集上可能才有帮助。
  • 在较小的模型或数据集上,Dropout 可能效果不佳,挑战正则化技术的普适性。
  • 技术之间存在显著矛盾(如早停与过训练),需谨慎权衡。
  • 技术之间存在对应性与潜在协同效应(如数据增强与剪枝、迁移学习与预训练),需进一步研究。
  • 该分类法为基于任务和数据选择与组合正则化方法提供了一个实用的起点。
(a) Diabetes Dataset
(a) Diabetes Dataset

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。