Skip to main content
QUICK REVIEW

[论文解读] The Mondrian Kernel

Matej Balog, Balaji Lakshminarayanan|arXiv (Cornell University)|Jun 16, 2016
Topological and Geometric Data Analysis参考文献 12被引用 8
一句话总结

Mondrian核是一种快速、高效的拉普拉斯核随机特征近似方法,利用Mondrian过程实现跨所有核宽度的可重用、在线特征构建。通过Mondrian过程采样随机划分,它实现了快速的核宽度选择,并在使用更少特征的情况下,性能优于随机傅里叶特征和分箱特征,同时揭示了核方法与随机森林之间的一种新联系。

ABSTRACT

We introduce the Mondrian kernel, a fast $ extit{random feature}$ approximation to the Laplace kernel. It is suitable for both batch and online learning, and admits a fast kernel-width-selection procedure as the random features can be re-used efficiently for all kernel widths. The features are constructed by sampling trees via a Mondrian process [Roy and Teh, 2009], and we highlight the connection to Mondrian forests [Lakshminarayanan et al., 2014], where trees are also sampled via a Mondrian process, but fit independently. This link provides a new insight into the relationship between kernel methods and random forests.

研究动机与目标

  • 解决核方法中核宽度选择的计算低效问题,通常需为每个宽度重新训练模型。
  • 开发一种拉普拉斯核的随机特征近似方法,可在不重新训练的情况下跨不同核宽度重用特征。
  • 通过Mondrian过程建立核方法与随机森林之间的理论和实践联系。
  • 为基于拉普拉斯核的模型实现在线学习和高效的超参数调优。
  • 提供一种可扩展的替代方案,以替代昂贵的精确拉普拉斯核计算,尤其适用于大规模或流式设置。

提出的方法

  • 使用Mondrian过程构建随机特征,该过程通过竞争的指数时钟生成分层的轴对齐划分。
  • 根据数据点落入的Mondrian划分箱,将其映射为指示向量,形成稀疏特征表示。
  • 利用Mondrian过程的投影性,使相同随机特征可重复用于所有核宽度,避免重新训练。
  • 将Mondrian过程的寿命参数λ用作拉普拉斯核长度尺度(反宽度)的代理。
  • 通过验证误差优化寿命λ实现核宽度选择,支持快速、迭代的调优。
  • 将Mondrian核与Mondrian森林进行比较,突出其在参数拟合(联合 vs. 独立)和性能权衡上的差异。

实验结果

研究问题

  • RQ1能否利用Mondrian过程构建一种拉普拉斯核的随机特征近似方法,以实现高效的核宽度选择?
  • RQ2在近似精度和计算效率方面,Mondrian核与随机傅里叶特征和随机分箱特征相比表现如何?
  • RQ3Mondrian核与Mondrian森林之间的理论和实践关系是什么?联合参数拟合如何提升模型紧凑性?
  • RQ4Mondrian核能否实现快速、在线学习并支持自适应核宽度选择?
  • RQ5与替代的随机特征方法相比,Mondrian核是否能以更少的非零特征实现更好的泛化性能?

主要发现

  • 在CPU数据集上,当每个数据点使用少于15个非零特征时,Mondrian核的测试集误差低于随机傅里叶特征和分箱特征。
  • 在小特征数量下,Mondrian核的最大绝对核近似误差与随机分箱特征相当,且显著低于傅里叶特征。
  • 通过验证误差,Mondrian核在约一个数量级内恢复了真实核寿命λ₀ = 10,其中ˆλ ≈ 19使误差最小化。
  • 与随机傅里叶特征和随机分箱相比,Mondrian核在验证误差与计算时间的对比中,发现合适核宽度的速度至少快一个数量级。
  • 与Mondrian森林相比,Mondrian核在更低的寿命值下实现了更低的测试误差,表明由于联合参数拟合,其模型更紧凑、更高效。
  • Mondrian核学习到的权重分布比Mondrian森林更集中在零附近,通过小权重的聚合,能够实现更极端的预测。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。