QUICK REVIEW

[论文解读] Reducing Overfitting in Deep Networks by Decorrelating Representations

Michael Cogswell, Faruk Ahmed|arXiv (Cornell University)|Nov 19, 2015

Machine Learning and Data Classification被引用 78

一句话总结

本文提出 DeCov，一种新型正则化方法，通过最小化隐藏层激活之间的交叉协方差来减少深度神经网络的过拟合，从而鼓励特征表示去相关、非冗余。DeCov 在多个数据集和网络架构上一致地缩小了训练集与验证集之间的准确率差距，通常在保持或提升泛化性能的同时，优于或匹配 Dropout 的表现。

ABSTRACT

One major challenge in training Deep Neural Networks is preventing overfitting. Many techniques such as data augmentation and novel regularizers such as Dropout have been proposed to prevent overfitting without requiring a massive amount of training data. In this work, we propose a new regularizer called DeCov which leads to significantly reduced overfitting (as indicated by the difference between train and val performance), and better generalization. Our regularizer encourages diverse or non-redundant representations in Deep Neural Networks by minimizing the cross-covariance of hidden activations. This simple intuition has been explored in a number of past works but surprisingly has never been applied as a regularizer in supervised learning. Experiments across a range of datasets and network architectures show that this loss always reduces overfitting while almost always maintaining or increasing generalization performance and often improving performance over Dropout.

研究动机与目标

为解决在数据量有限的情况下训练大规模模型时，深度神经网络中过拟合这一主要挑战。
探究显式降低隐藏单元激活之间相关性是否能改善泛化性能。
开发一种新型正则化方法，以鼓励多样化、非冗余的表示，且无需额外监督信号。
评估去相关表示是否在性能上优于标准正则化技术（如 Dropout）

提出的方法

提出 DeCov，一种通过最小化选定层中隐藏激活之间样本交叉协方差矩阵的 Frobenius 范数来实现的正则化方法。
在反向传播过程中将 DeCov 损失作为无监督、可微分的正则化项引入，无需额外标签。
通过将 DeCov 损失加入整体训练目标，将 DeCov 集成到现有深度学习架构中。
实验中采用批量归一化和 ReLU 激活函数，DeCov 应用于全连接层或池化后的特征图。
对 DeCov 超参数（λ）进行调优，以平衡正则化效果，实验表明其在不同取值下均表现稳健。
将 DeCov 与 Dropout 结合，以评估其在泛化性能和过拟合抑制方面的互补效应。

实验结果

研究问题

RQ1显式最小化隐藏激活之间的交叉协方差，是否能有效减少深度网络的过拟合？
RQ2与标准正则化方法（如 Dropout）相比，去相关表示是否能带来更好的泛化性能？
RQ3DeCov 在不同数据集、网络架构和训练数据规模下的表现如何？
RQ4DeCov 与 Dropout 联合使用时是否有效，是否存在相互干扰？
RQ5DeCov 是否能有效应用于全卷积网络（如 Network in Network）？

主要发现

在仅使用 DeCov 的情况下，ImageNet 数据集在 128×128 分辨率下，训练集与验证集之间的准确率差距从 59.35% 显著降低至 14.7%。
在 Network in Network 架构上，DeCov 将 top-1 的训练-验证准确率差距降低了约 3%，top-5 差距降低了 2%。
在所有实验中，DeCov 单独使用时均能一致地减少过拟合，并在泛化性能上保持或优于基线模型。
当与 Dropout 联合使用时，DeCov 与 Dropout 共同在所有设置下实现了最佳的验证集准确率，且训练-验证准确率差距最小。
在使用 Dropout 但未使用 DeCov 预训练的网络上进行微调时，加入 DeCov 后性能无提升甚至略有下降，表明两种正则化方法之间可能存在干扰。
DeCov 损失在多种架构（LeNet、AlexNet、Network in Network）和数据集（MNIST、CIFAR10/100、ImageNet）上均表现有效，展现出广泛的适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。