Skip to main content
QUICK REVIEW

[论文解读] Learning Theory Approach to Minimum Error Entropy Criterion

Ting Hu, Jun Fan|arXiv (Cornell University)|Aug 3, 2012
Neural Networks and Applications参考文献 24被引用 78
一句话总结

该论文通过分析使用Parzen窗方法的经验风险最小化方法,首次为基于Rényi二阶熵的最小误差熵(MEE)算法建立了严格的相合性结果。证明了当核缩放参数 $ h $ 以适当速率趋于无穷大时,MEE算法是相合的,克服了基于熵的学习中非二次性带来的技术挑战。

ABSTRACT

We consider the minimum error entropy (MEE) criterion and an empirical risk minimization learning algorithm in a regression setting. A learning theory approach is presented for this MEE algorithm and explicit error bounds are provided in terms of the approximation ability and capacity of the involved hypothesis space when the MEE scaling parameter is large. Novel asymptotic analysis is conducted for the generalization error associated with Renyi's entropy and a Parzen window function, to overcome technical difficulties arisen from the essential differences between the classical least squares problems and the MEE setting. A semi-norm and the involved symmetrized least squares error are introduced, which is related to some ranking algorithms.

研究动机与目标

  • 为监督学习中的最小误差熵(MEE)准则建立理论基础,特别是针对非高斯噪声场景。
  • 解决文献中MEE算法缺乏相合性结果的问题,尽管这些算法在实践中被广泛使用,但其理论理解仍不充分。
  • 分析当Parzen窗方法的缩放参数 $ h $ 较大时MEE算法的行为,这在经验上被观察到可提升性能。
  • 通过以假设空间的逼近能力和容量为度量,推导收敛速率,弥合信息论学习与经典学习理论之间的差距。

提出的方法

  • 使用基于Rényi二阶熵的熵基损失函数的经验风险最小化(ERM)方法。
  • 采用带有核函数 $ G $ 的Parzen窗方法来估计误差密度 $ p_E $,引入缩放参数 $ h $。
  • 引入对称化最小二乘误差作为代理变量以分析泛化误差,将MEE与排序算法联系起来。
  • 应用覆盖数和逼近误差条件,以假设空间的容量和逼近能力为度量,界定泛化误差。
  • 使用U统计量和集中不等式控制经验风险与真实风险之间的偏差,特别是在重尾响应变量的情况下。
  • 对响应变量 $ Y $ 施加矩条件,包括 $ \mathbb{E}[|Y|^q] < \infty $,并对窗函数 $ G $ 施加衰减条件。

实验结果

研究问题

  • RQ1当Parzen窗方法的缩放参数 $ h \to \infty $ 时,能否证明MEE算法的相合性?尽管通常认为较小的 $ h $ 更适合密度估计。
  • RQ2MEE算法的泛化误差在逼近误差和假设空间容量方面的行为如何?
  • RQ3MEE准则与排序算法中使用的对称化最小二乘误差之间存在何种关系?
  • RQ4该理论框架能否推广到其他熵阶,如香农熵或Rényi熵($ \alpha \neq 2 $)?
  • RQ5当 $ h \to 0 $ 时是否可实现相合性,还是大 $ h $ 范畴在理论上是保证稳定性的根本要求?

主要发现

  • 当缩放参数 $ h \to \infty $ 且速率平衡逼近项与容量项时,MEE算法是相合的,收敛速率为 $ O(m^{-1/(2+p)}) $,其中 $ p $ 为覆盖数幂指数。
  • 泛化误差被界定为逼近误差 $ \mathcal{D}_{\mathcal{H}}(f_\rho) $ 与依赖于覆盖数 $ \mathcal{N}(\mathcal{H}, \varepsilon) $ 的项之和,且给出了包含 $ \log(2/\delta) $ 的显式高概率界。
  • 引入并分析了对称化最小二乘误差,表明MEE目标函数与之相差一个随 $ h \to \infty $ 而趋于零的项,从而将MEE与基于排序的学习联系起来。
  • 使用投影算子 $ \pi_{\sqrt{m}} $ 控制重尾响应,确保投影响应的期望以速率 $ O(1/\sqrt{m}) $ 收敛到真实回归函数。
  • 该论文在文献中首次建立了MEE算法的严格相合性结果,解决了长期存在的理论空白。
  • 该分析仅限于Rényi熵的 $ \alpha = 2 $ 阶,且在无额外假设下,结果无法推广至其他 $ \alpha \neq 2 $ 的情况。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。