QUICK REVIEW

[论文解读] Differentiable PAC–Bayes Objectives with Partially Aggregated Neural Networks

Felix Biggs|arXiv (Cornell University)|Sep 29, 2021

Adversarial Robustness in Machine Learning参考文献 17被引用 8

一句话总结

本文提出了用于随机神经网络的部分聚合蒙特卡罗估计器，实现了在不可微分符号输出网络中的低方差梯度估计。它推导出一个可直接微分的PAC-Bayesian目标函数，无需使用代理损失即可获得更紧致的泛化界，其界宽仅为Letarte等人（2019年）在类似网络上的两倍，同时通过路径梯度实现稳定训练。

ABSTRACT

We make two related contributions motivated by the challenge of training stochastic neural networks, particularly in a PAC–Bayesian setting: (1) we show how averaging over an ensemble of stochastic neural networks enables a new class of partially-aggregated estimators, proving that these lead to unbiased lower-variance output and gradient estimators; (2) we reformulate a PAC–Bayesian bound for signed-output networks to derive in combination with the above a directly optimisable, differentiable objective and a generalisation guarantee, without using a surrogate loss or loosening the bound. We show empirically that this leads to competitive generalisation guarantees and compares favourably to other methods for training such networks. Finally, we note that the above leads to a simpler PAC–Bayesian training scheme for sign-activation networks than previous work.

研究动机与目标

为解决在PAC-Bayesian框架下训练随机神经网络的挑战，特别是当使用不可微分激活函数（如符号函数）时导致的高方差梯度估计问题。
通过推导一个可微分且可直接优化的目标函数，弥合PAC-Bayesian界与优化目标之间的差距，同时保持原始界紧致性。
通过聚合方法重构PAC-Bayesian界，避免使用代理损失或松散界，从而改进泛化保证，适用于符号输出网络。
提出一类新的部分聚合估计器，平衡深度随机网络的解析可处理性与计算可行性。

提出的方法

提出一种部分聚合蒙特卡罗估计器，通过在多次前向传播中平均输出，同时保持路径梯度估计，相比REINFORCE和朴素蒙特卡罗方法显著降低方差。
通过结合聚合与Catoni（2007年）的界公式，推导出适用于符号输出网络的新PAC-Bayesian界，确保该界保持可直接优化且可微分。
利用线性损失的线性性与Jensen不等式，将期望误分类损失等价于Q-聚合预测器的损失，即使在不可微分的符号激活函数下也能实现可微分性。
引入两种训练目标：'fix-λ'使用固定正则化参数，'optim-λ'则通过界自动调节λ，实现自适应正则化。
通过标准化参数分布（例如通过z = (θ - μ)/σ）实现路径梯度估计，即使在不可微分输出函数下也能获得低方差梯度。
将该框架应用于具有符号、Sigmoid或ReLU激活函数的全连接神经网络，采用各向同性正态先验与后验分布以建模参数不确定性。

实验结果

研究问题

RQ1与REINFORCE和朴素蒙特卡罗方法相比，部分聚合估计器是否能降低不可微分符号输出神经网络中的梯度方差？
RQ2能否将符号输出网络的PAC-Bayesian界重构为无需使用代理损失或松散界、且可直接微分的目标函数？
RQ3所提出的方法是否在类似网络架构上获得比先前工作（特别是Letarte等人，2019年）更紧致的泛化保证？
RQ4'optim-λ'目标是否能在训练过程中自动调节正则化强度，从而在无需手动调参的情况下提升泛化性能？

主要发现

所提出的部分聚合估计器在不可微分符号输出神经网络中，相比REINFORCE和朴素蒙特卡罗方法，实现了更低的梯度方差估计。
推导出的PAC-Bayesian目标函数是可直接微分的，其泛化界在相同网络类型上比Letarte等人（2019年）的界紧致两倍。
在binary-MNIST数据集上，'optim-λ'目标实现了5.61%的测试0-1误差和16.0%的非平凡界（δ=0.05），在界紧致性方面优于基线PBGNet模型。
使用λ = m = 60,000的'fix-λ'目标实现了5.41%的测试0-1误差和16.0%的界，表现出与稳定训练相匹配的竞争力。
该方法使在PAC-Bayesian设置下训练深层、多层不可微分神经网络成为可能，此前因高方差梯度而难以实现。
尽管理论界更紧致，但非随机的ReLU多层感知机基线模型实现了更低的测试误差（1.82%），凸显了泛化界与实证性能之间的差距。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。