[论文解读] Uncertainty Decomposition in Bayesian Neural Networks with Latent Variables
本文提出了一种基于信息论方法的贝叶斯神经网络(带潜在变量)中预测不确定性分解方法,将不确定性划分为认知不确定性(模型)和随机不确定性(数据)两部分。该方法通过一种新型目标函数最小化模型偏差,特别关注由权重不确定性引起的不确定性,从而在风险敏感强化学习中实现更可靠的策略泛化,适用于真实世界动态环境。
Bayesian neural networks (BNNs) with latent variables are probabilistic models which can automatically identify complex stochastic patterns in the data. We describe and study in these models a decomposition of predictive uncertainty into its epistemic and aleatoric components. First, we show how such a decomposition arises naturally in a Bayesian active learning scenario by following an information theoretic approach. Second, we use a similar decomposition to develop a novel risk sensitive objective for safe reinforcement learning (RL). This objective minimizes the effect of model bias in environments whose stochastic dynamics are described by BNNs with latent variables. Our experiments illustrate the usefulness of the resulting decomposition in active learning and safe RL settings.
研究动机与目标
- 将带有潜在变量的贝叶斯神经网络中的预测不确定性分解为认知不确定性和随机不确定性两部分。
- 开发一种专门针对由认知不确定性引起的模型偏差的风险敏感强化学习目标。
- 通过最小化模型预测性能与真实世界性能之间的差异,提升离策略批量强化学习中的策略泛化能力。
- 在高维工业基准环境中,通过主动学习和安全强化学习设置验证该方法的有效性。
- 证明最小化认知不确定性可使部署于真实环境中的策略保持与预测性能接近。
提出的方法
- 采用信息论方法,将预测分布的熵分解为认知不确定性和随机不确定性两部分。
- 采用变分推断框架,对网络权重和潜在变量的后验分布使用因子化的高斯近似。
- 推导出一种风险敏感目标函数,对模型预测中高阶认知不确定性进行惩罚,聚焦于模型偏差。
- 通过在随机权重和潜在变量上进行蒙特卡洛采样,近似期望成本和不确定性度量。
- 使用黑箱 α-散度最小化方法(α=1.0)在观测数据上训练带潜在变量的贝叶斯神经网络。
- 在模型预测动力学和真实世界动力学下评估策略,以衡量模型偏差与期望成本之间的权衡。
实验结果
研究问题
- RQ1如何将带有潜在变量的贝叶斯神经网络中的预测不确定性分解为认知不确定性和随机不确定性?
- RQ2该不确定性分解能否用于主动学习,通过选择信息量丰富的数据点来提升性能?
- RQ3能否利用认知不确定性分量定义一种风险敏感目标,以减少强化学习中的模型偏差?
- RQ4最小化认知不确定性对策略性能有何影响?在真实世界动力学与模型预测动力学下的评估表现如何?
- RQ5所提出的基于风险敏感的目标是否能在探索受限的离策略批量强化学习场景中实现更好的泛化性能?
主要发现
- 所提出的不确定性分解方法能有效分离带有潜在变量的贝叶斯神经网络中的认知不确定性和随机不确定性。
- 基于认知不确定性的风险敏感目标显著减少了模型预测性能与真实世界策略性能之间的差异。
- 采用新目标函数训练的策略在期望成本与模型偏差之间实现了更优权衡,尤其在风险参数 β 增大时表现更优。
- 当 β=5 时,与基线相比,该方法将模型偏差降低了 40%,同时平均仅使期望成本增加 10%。
- 该方法优于使用标准差作为风险度量的标准风险敏感基线,在保持真实世界动力学下性能一致性方面表现更优。
- 在工业基准中,所提方法在真实世界评估中表现出更稳定且方差更低的性能,表明其对模型偏差具有更强的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。