QUICK REVIEW

[论文解读] The Random Forest Kernel and other kernels for big data from random partitions

Alex Davies, Zoubin Ghahramani|Cambridge University Engineering Department Publications Database|Feb 18, 2014

Gaussian Processes and Bayesian Inference参考文献 11被引用 36

一句话总结

本文提出了随机划分核（Random Partition Kernel），一种从数据的随机划分构建高效核函数的新框架，使大规模数据的核方法具备可扩展性。通过将随机划分与核函数关联，该方法提出了随机森林核（Random Forest Kernel）和快速聚类核（Fast Cluster Kernel），在真实世界回归任务中显著优于标准核函数，并通过一种可行的近似方案实现在高斯过程、支持向量机和核主成分分析中的O(N)推理。

ABSTRACT

We present Random Partition Kernels, a new class of kernels derived by demonstrating a natural connection between random partitions of objects and kernels between those objects. We show how the construction can be used to create kernels from methods that would not normally be viewed as random partitions, such as Random Forest. To demonstrate the potential of this method, we propose two new kernels, the Random Forest Kernel and the Fast Cluster Kernel, and show that these kernels consistently outperform standard kernels on problems involving real-world datasets. Finally, we show how the form of these kernels lend themselves to a natural approximation that is appropriate for certain big data problems, allowing $O(N)$ inference in methods such as Gaussian Processes, Support Vector Machines and Kernel PCA.

研究动机与目标

为复杂、高维的真实世界数据解决缺乏有效且直观的核构造方法的问题。
开发一种通用框架，用于从自然产生随机划分的算法（如随机森林和聚类方法）中推导核函数。
通过利用所提出核函数的结构，实现在大规模数据上核机器（如高斯过程、支持向量机、核主成分分析）的可扩展推理。
通过实证结果证明，所提出的核函数——随机森林核与快速聚类核——在真实世界回归基准测试中优于标准核函数。

提出的方法

本文建立了数据随机划分与正定核之间的正式联系，表明数据点之间的相似性可从它们在随机划分中被分到同一组的概率中推导得出。
提出一种通用的核构造方法：对于任意随机划分过程，核函数定义为在多个随机划分中两个点位于同一簇的概率。
随机森林核通过使用随机森林分类器生成的随机划分构建：每棵树定义一个划分，核函数为两数据点位于同一叶节点的树所占比例。
快速聚类核采用一种随机聚类过程：对每个样本，随机选择一个特征子集，并基于该子空间中的最近邻将数据划分为簇。
通过从划分过程中导出的低秩结构对核矩阵进行近似，实现O(N)推理，使迭代求解器中的高效矩阵-向量乘法成为可能。
通过理论分析和实证评估验证了该近似方法，表明即使划分数量较少，仍能保持收敛性。

实验结果

研究问题

RQ1能否开发一种通用框架，从产生随机划分的算法（如随机森林或聚类）中推导出有效的核函数？
RQ2从随机划分中推导出的核函数（如随机森林核与快速聚类核）是否在真实世界回归任务中优于标准核函数（如RBF和线性核）？
RQ3这些基于划分的核函数的结构能否实现核机器中的可扩展推理，将复杂度从O(N³)降低至O(N)？
RQ4该核近似在多大程度上保持了预测性能？达到收敛所需的划分数量是多少？

主要发现

在UCI数据库中六个真实世界回归数据集上，随机森林核与快速聚类核在测试对数似然值方面持续优于标准核函数（如RBF、线性核）。
平均而言，随机森林核在测试对数似然值上显著优于RBF和线性核，表明其对联合预测后验分布的建模能力更强。
随着划分数量的增加，快速聚类核的性能稳步提升，在约200个划分时接近最优性能。
即使树的数量较少（如m=200），随机森林核也能实现接近最优的性能，表明其具有优异的收敛特性。
使用快速聚类核的核主成分分析实现O(N)复杂度，在普通PC上每分钟可处理约100,000个数据点，而RBF核为O(N³)，随机森林核为O(N¹.⁵)。
所提出的近似方案通过利用从随机划分中导出的核矩阵的低秩结构，实现了高斯过程、支持向量机和核主成分分析中的O(N)推理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。