[论文解读] Noise Regularization for Conditional Density Estimation
本文提出了一种用于神经条件密度估计(CDE)的噪声正则化方法,通过在训练过程中对输入数据添加受控的随机扰动,以提升泛化能力。该方法在估计的条件密度中引入平滑性,实现渐近一致性,并在仅使用400个训练样本的情况下,优于其他正则化技术及经典非参数方法。
Modelling statistical relationships beyond the conditional mean is crucial in many settings. Conditional density estimation (CDE) aims to learn the full conditional probability density from data. Though highly expressive, neural network based CDE models can suffer from severe over-fitting when trained with the maximum likelihood objective. Due to the inherent structure of such models, classical regularization approaches in the parameter space are rendered ineffective. To address this issue, we develop a model-agnostic noise regularization method for CDE that adds random perturbations to the data during training. We demonstrate that the proposed approach corresponds to a smoothness regularization and prove its asymptotic consistency. In our experiments, noise regularization significantly and consistently outperforms other regularization methods across seven data sets and three CDE models. The effectiveness of noise regularization makes neural network based CDE the preferable method over previous non- and semi-parametric approaches, even when training data is scarce.
研究动机与目标
- 解决在训练数据稀缺时,基于神经网络的条件密度估计(CDE)模型出现过拟合的问题。
- 开发一种对高容量CDE模型有效的、与模型无关的正则化方法,这些模型在最大似然训练下对过拟合敏感。
- 建立所提出的噪声正则化方法的理论一致性和平滑性性质。
- 证明噪声正则化的神经CDE在低数据场景下优于最先进非参数和半参数CDE方法。
提出的方法
- 在训练过程中对输入特征x施加受控的随机噪声,而不修改模型架构。
- 使用带有噪声输入的随机优化,隐式地正则化条件密度估计。
- 理论上将噪声添加与对大二阶导数的惩罚联系起来,促进估计密度的平滑性。
- 在温和的正则性条件下,证明了噪声正则化最大似然估计器的渐近一致性。
- 采用与数据维度和样本量相关的噪声水平,以平衡偏差与方差。
- 与任何神经CDE模型架构兼容,包括MDN、KMN和NFN,因此具有模型无关性。
实验结果
研究问题
- RQ1噪声正则化是否能有效降低在最大似然训练下神经CDE模型的过拟合?
- RQ2噪声正则化是否诱导出有利于更平滑条件密度估计的归纳偏差?
- RQ3该噪声正则化方法在条件密度估计中是否具有渐近一致性?
- RQ4在数据稀缺时,噪声正则化的神经CDE是否能优于经典非参数和半参数CDE方法?
- RQ5在不同CDE架构下,噪声正则化与权重衰减、L1/L2正则化及贝叶斯方法相比,性能如何?
主要发现
- 在所有测试的CDE模型(MDN、KMN、NFN)和数据集上,噪声正则化始终优于权重衰减、L1/L2正则化和贝叶斯方法。
- 在真实世界数据集中,即使仅有400个训练样本,噪声正则化的神经CDE在测试对数似然上也优于最先进的非参数方法(如CKDE和NKDE)。
- 在Euro Stoxx和NYC Taxi数据集中,噪声正则化的NFN分别实现了5.20±0.03和5.12±0.03的测试对数似然,优于所有其他方法。
- 在表2的全部5个数据集中,该方法在平均测试对数似然上表现最高,其中NFN在Euro Stoxx上得分为4.00±0.03,在NYC Taxi上得分为5.20±0.03。
- 噪声正则化在不同CDE模型和数据规模下表现出稳健性能,而参数空间正则化方法的性能则因模型架构不同而波动较大。
- 理论分析证实,噪声正则化对应于平滑性惩罚,并具有渐近一致性,支持其在低数据场景下的可靠性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。