[论文解读] A Communication-Efficient Parallel Algorithm for Decision Tree
本文提出并行投票决策树(PV-Tree),一种用于训练决策树和梯度提升模型的通信高效并行算法。通过使用局部投票与全局投票机制,仅对顶级特征进行通信,PV-Tree 实现了与总特征数无关的低通信开销,同时保持高准确率,在真实世界数据集上的速度-准确率权衡方面显著优于现有方法。
Decision tree (and its extensions such as Gradient Boosting Decision Trees and Random Forest) is a widely used machine learning algorithm, due to its practical effectiveness and model interpretability. With the emergence of big data, there is an increasing need to parallelize the training process of decision tree. However, most existing attempts along this line suffer from high communication costs. In this paper, we propose a new algorithm, called \emph{Parallel Voting Decision Tree (PV-Tree)}, to tackle this challenge. After partitioning the training data onto a number of (e.g., $M$) machines, this algorithm performs both local voting and global voting in each iteration. For local voting, the top-$k$ attributes are selected from each machine according to its local data. Then, globally top-$2k$ attributes are determined by a majority voting among these local candidates. Finally, the full-grained histograms of the globally top-$2k$ attributes are collected from local machines in order to identify the best (most informative) attribute and its split point. PV-Tree can achieve a very low communication cost (independent of the total number of attributes) and thus can scale out very well. Furthermore, theoretical analysis shows that this algorithm can learn a near optimal decision tree, since it can find the best attribute with a large probability. Our experiments on real-world datasets show that PV-Tree significantly outperforms the existing parallel decision tree algorithms in the trade-off between accuracy and efficiency.
研究动机与目标
- 解决现有并行决策树算法中通信开销过高的问题,特别是在全量特征直方图需在所有机器间交换的数据并行设置下。
- 开发一种可扩展、通信高效的并行决策树训练方法,同时保持高模型准确率。
- 通过最小化机器间通信,实现梯度提升与随机森林模型的高效大规模训练,同时保持模型质量。
- 从理论上证明该算法可通过基于投票的特征选择机制,以高概率找到近似最优划分。
提出的方法
- 将训练数据在 M 台机器上进行水平划分,每台机器处理样本子集。
- 执行本地投票:每台机器从其本地数据中选择信息量最高的前-k 个特征(例如基于信息增益或风险减少)。
- 执行全局投票:聚合所有机器的本地前-k 选择结果,通过多数投票方式选出全局前-2k 个特征。
- 从所有机器收集仅针对全局前-2k 个特征的完整粒度直方图,以计算全局分布。
- 通过在聚合的全局直方图上评估信息量得分(例如信息增益)来确定最佳划分。
- 迭代重复该过程以构建决策树,仅通信顶级特征的索引以及最终候选集的完整直方图,从而最小化通信量。
实验结果
研究问题
- RQ1与现有数据并行方法相比,能否在显著降低通信开销的同时,实现高准确率的并行决策树算法?
- RQ2基于投票的候选特征选择机制如何影响识别全局最优划分的概率?
- RQ3机器数量和本地数据规模对算法收敛性和准确率有何影响?
- RQ4局部选择特征数 k 的选择如何影响通信开销与模型性能之间的权衡?
主要发现
- PV-Tree 的通信开销显著低于传统数据并行方法,因为其仅通信前-k 个特征的索引以及全局前-2k 个特征的完整直方图,且与总特征数无关。
- 在真实世界排序与点击率预测数据集上的实验表明,PV-Tree 在训练速度和模型准确率方面均优于现有并行 GBDT 算法。
- 当机器数量超过某一最优点(例如从 8 台增至 16 台)时,收敛速度变慢,这是由于通信开销增加且每台机器的数据量减少所致,与理论预期一致。
- 在 LTR 与 CTR 任务中,设置 k ≤ 40 即可达到近似最优准确率;当机器数量较少时,局部数据量更大,使用更小的 k 值(如 k=5)已足够。
- PV-Tree 优于独立训练基线方法(Svore 和 Yu),后者因缺乏信息共享而存在模型偏差且收敛点更差。
- 理论分析表明,PV-Tree 有高概率识别出全局最优特征,尤其当本地数据能代表完整数据集时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。