Skip to main content
QUICK REVIEW

[论文解读] Mondrian Forests: Efficient Online Random Forests

Balaji Lakshminarayanan, Daniel M. Roy|arXiv (Cornell University)|Jun 10, 2014
Neural Networks and Applications参考文献 24被引用 114
一句话总结

本文提出了Mondrian Forests,一种新颖的在线随机森林算法,利用Mondrian过程实现高效、增量式的树生长,同时保持与批量训练相同的分布。该方法在预测准确性方面与批量随机森林及最先进的在线方法相当,但训练速度提高了一个数量级以上,因此在流数据应用中极具效率。

ABSTRACT

Ensembles of randomized decision trees, usually referred to as random forests, are widely used for classification and regression tasks in machine learning and statistics. Random forests achieve competitive predictive performance and are computationally efficient to train and test, making them excellent candidates for real-world prediction tasks. The most popular random forest variants (such as Breiman's random forest and extremely randomized trees) operate on batches of training data. Online methods are now in greater demand. Existing online random forests, however, require more training data than their batch counterpart to achieve comparable predictive performance. In this work, we use Mondrian processes (Roy and Teh, 2009) to construct ensembles of random decision trees we call Mondrian forests. Mondrian forests can be grown in an incremental/online fashion and remarkably, the distribution of online Mondrian forests is the same as that of batch Mondrian forests. Mondrian forests achieve competitive predictive performance comparable with existing online random forests and periodically re-trained batch random forests, while being more than an order of magnitude faster, thus representing a better computation vs accuracy tradeoff.

研究动机与目标

  • 开发一种在线随机森林算法,使其预测性能与批量方法相当,同时支持增量学习。
  • 解决现有在线随机森林计算效率低下的问题,这些方法需要比批量对应方法多出大量训练数据才能达到相似的准确性。
  • 利用Mondrian过程的数学特性,确保在线树更新与批量训练保持相同的分布。
  • 在在线学习环境中实现计算效率与预测准确性之间的优越权衡。
  • 为现实世界中的流数据应用提供一种可扩展、高效的在线与批量随机森林替代方案。

提出的方法

  • 该方法使用Mondrian过程构建决策树集成,Mondrian过程定义了输入空间中随机、轴对齐划分的随机过程。
  • 每棵树通过使用条件分布MTx(λ, T, DN+1)对新数据点逐步更新其结构,确保更新后的树与批量模式训练时遵循相同的分布。
  • 其关键创新在于利用Mondrian过程中指数分布的无记忆性,实现高效的在线更新,其时间复杂度随树深度对数增长。
  • 通过平均集成中各Mondrian树的类别概率输出进行预测,与标准随机森林类似。
  • 该方法在在线与批量设置下保持相同的树分布理论特性,确保不同训练模式间的一致性。
  • 该方法显式表示特征空间中的矩形区域,从而实现高效计算,但在高维设置下可能带来更高的计算开销。

实验结果

研究问题

  • RQ1是否可以构建一种在线随机森林,使其在任意数据顺序下,树的分布均与批量训练的森林保持一致?
  • RQ2基于Mondrian过程的在线随机森林是否能在使用相同数据比例的情况下,实现与批量随机森林相当的预测性能?
  • RQ3Mondrian Forests的训练速度与现有在线及批量随机森林方法相比如何?
  • RQ4在线Mondrian Forest方法是否能高效处理流数据,同时保持准确性?
  • RQ5无关特征对Mondrian Forests性能有何影响?通过特征过滤能否提升性能?

主要发现

  • Mondrian Forests在测试准确性上与定期重新训练的批量随机森林及最先进的在线随机森林相当,即使在使用相同数据比例的情况下亦如此。
  • Mondrian Forests的训练时间复杂度为O(N log N),比重新训练的批量随机森林的O(N² log N)复杂度快一个数量级以上。
  • 在DNA数据集上,Mondrian Forests与ERT-1的性能在过滤掉无关特征后显著提升,MF†与ERT-1†均表现出明显的准确率增益。
  • 在各数据集上,训练后的Mondrian Forests的平均树深为O(log N),支持树更新的对数时间复杂度。
  • Mondrian Forests在训练速度和达到目标准确度所需训练实例数量方面,均优于现有的在线随机森林方法。
  • 该方法保持了理论一致性:在线更新产生的树分布与批量训练相同,这一特性是其他在线随机森林方法所不具备的。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。