[论文解读] The Mondrian Kernel
Mondrian核是一种快速、高效的拉普拉斯核随机特征近似方法,利用Mondrian过程实现跨所有核宽度的可重用、在线特征构建。通过Mondrian过程采样随机划分,它实现了快速的核宽度选择,并在使用更少特征的情况下,性能优于随机傅里叶特征和分箱特征,同时揭示了核方法与随机森林之间的一种新联系。
We introduce the Mondrian kernel, a fast $ extit{random feature}$ approximation to the Laplace kernel. It is suitable for both batch and online learning, and admits a fast kernel-width-selection procedure as the random features can be re-used efficiently for all kernel widths. The features are constructed by sampling trees via a Mondrian process [Roy and Teh, 2009], and we highlight the connection to Mondrian forests [Lakshminarayanan et al., 2014], where trees are also sampled via a Mondrian process, but fit independently. This link provides a new insight into the relationship between kernel methods and random forests.
研究动机与目标
- 解决核方法中核宽度选择的计算低效问题,通常需为每个宽度重新训练模型。
- 开发一种拉普拉斯核的随机特征近似方法,可在不重新训练的情况下跨不同核宽度重用特征。
- 通过Mondrian过程建立核方法与随机森林之间的理论和实践联系。
- 为基于拉普拉斯核的模型实现在线学习和高效的超参数调优。
- 提供一种可扩展的替代方案,以替代昂贵的精确拉普拉斯核计算,尤其适用于大规模或流式设置。
提出的方法
- 使用Mondrian过程构建随机特征,该过程通过竞争的指数时钟生成分层的轴对齐划分。
- 根据数据点落入的Mondrian划分箱,将其映射为指示向量,形成稀疏特征表示。
- 利用Mondrian过程的投影性,使相同随机特征可重复用于所有核宽度,避免重新训练。
- 将Mondrian过程的寿命参数λ用作拉普拉斯核长度尺度(反宽度)的代理。
- 通过验证误差优化寿命λ实现核宽度选择,支持快速、迭代的调优。
- 将Mondrian核与Mondrian森林进行比较,突出其在参数拟合(联合 vs. 独立)和性能权衡上的差异。
实验结果
研究问题
- RQ1能否利用Mondrian过程构建一种拉普拉斯核的随机特征近似方法,以实现高效的核宽度选择?
- RQ2在近似精度和计算效率方面,Mondrian核与随机傅里叶特征和随机分箱特征相比表现如何?
- RQ3Mondrian核与Mondrian森林之间的理论和实践关系是什么?联合参数拟合如何提升模型紧凑性?
- RQ4Mondrian核能否实现快速、在线学习并支持自适应核宽度选择?
- RQ5与替代的随机特征方法相比,Mondrian核是否能以更少的非零特征实现更好的泛化性能?
主要发现
- 在CPU数据集上,当每个数据点使用少于15个非零特征时,Mondrian核的测试集误差低于随机傅里叶特征和分箱特征。
- 在小特征数量下,Mondrian核的最大绝对核近似误差与随机分箱特征相当,且显著低于傅里叶特征。
- 通过验证误差,Mondrian核在约一个数量级内恢复了真实核寿命λ₀ = 10,其中ˆλ ≈ 19使误差最小化。
- 与随机傅里叶特征和随机分箱相比,Mondrian核在验证误差与计算时间的对比中,发现合适核宽度的速度至少快一个数量级。
- 与Mondrian森林相比,Mondrian核在更低的寿命值下实现了更低的测试误差,表明由于联合参数拟合,其模型更紧凑、更高效。
- Mondrian核学习到的权重分布比Mondrian森林更集中在零附近,通过小权重的聚合,能够实现更极端的预测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。