[论文解读] Sparse-Input Neural Networks for High-dimensional Nonparametric Regression and Classification
本文提出 SPINN,一种在第一层输入权重上施加稀疏组松弈惩罚的神经网络,用于在高维非参数回归与分类中选择特征,具备理论的超额风险界限和对无关权重的置零。
Neural networks are usually not the tool of choice for nonparametric high-dimensional problems where the number of input features is much larger than the number of observations. Though neural networks can approximate complex multivariate functions, they generally require a large number of training observations to obtain reasonable fits, unless one can learn the appropriate network structure. In this manuscript, we show that neural networks can be applied successfully to high-dimensional settings if the true function falls in a low dimensional subspace, and proper regularization is used. We propose fitting a neural network with a sparse group lasso penalty on the first-layer input weights. This results in a neural net that only uses a small subset of the original features. In addition, we characterize the statistical convergence of the penalized empirical risk minimizer to the optimal neural network: we show that the excess risk of this penalized estimator only grows with the logarithm of the number of input features; and we show that the weights of irrelevant features converge to zero. Via simulation studies and data analyses, we show that these sparse-input neural networks outperform existing nonparametric high-dimensional estimation methods when the data has complex higher-order interactions.
研究动机与目标
- 在 p >> n 的设置下,通过使神经网络聚焦于一小部分信息特征来实现非参数学习的动机与解决方案。
- 提出 SPINN,一种在第一层权重上施加稀疏组松弛惩罚以诱导特征稀疏性与交互的神经网络。
- 提供理论保证,显示在高维情形下的超额风险以及无关权重的收缩。
- 开发用于训练 SPINN 的优化算法并讨论实际性能的超参数调整。
- 通过仿真与真实数据分析证明,当存在复杂交互时,SPINN 相对于现有高维非参数方法具有更优性能。
提出的方法
- 定义一个具有 L 层隐藏的神经网络,输入特征数为 p,在输入权重上采用第一层的稀疏组松弛惩罚,在上层权重上采用岭惩罚。
- 将带惩罚的目标函数形式化:最小化经验损失加上 lambda0 乘以上层权重平方和,再加上 lambda 乘以对第一层权重的 Omega_alpha,其中 Omega_alpha 将 L1 与组松弈惩罚结合。
- 使用基于广义梯度下降(GIST)的训练算法,结合对稀疏组松弛的近端步骤来更新参数。
- 采用线搜索准则以确保收敛到一个临界点。
- 给出理论结果,当真实模型使用 s 个相关特征且无关权重趋于零时,在满足前述条件下,超额风险界为 O_p(n^{-1} s^{5/2} log p)。
- 通过交叉验证进行超参数调优,并讨论网络深度、宽度以及对上层的一个小的岭惩罚等实际考虑。
实验结果
研究问题
- RQ1SPINN 是否能够通过在输入层强制稀疏来学习高维非参数函数,同时允许复杂交互?
- RQ2随着 p 增大,带惩罚的 SPINN估计量的统计收敛性质如何,特别是超额风险和无关权重的收缩?
- RQ3当真实函数涉及高阶交互时,SPINN 与现有非参数高维方法相比有何差异?
- RQ4哪些算法策略(基于 GIST 的近端梯度)能够在高维设置下实现 SPINN 的可靠训练?
- RQ5超参数(alpha、lambda、网络架构)应如何调整以在稀疏性与预测性能之间取得平衡?
主要发现
- SPINN 的超额风险增长仅与 log p 相关,且无关输入权重趋于零。
- 若真实函数可被使用 s 个特征的稀疏神经网络良好近似,超额风险的量级为 O_p(n^{-1} s^{5/2} log p)。
- 该方法将模型容量集中在少量信息特征上,使其能够处理具有复杂交互的高维数据。
- 仿真与数据分析表明,当存在高阶交互时,SPINN 能优于现有的高维非参数估计方法。
- 在提出的稀疏组正则化下,与非信息性输入相关的权重趋向于零,从而实现可解释的特征选择。
- 该框架在局部强凸性和可识别性等条件下提供理论保证,收敛速率与第一层规模和稀疏度 |S| 相关。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。