QUICK REVIEW

[논문 리뷰] A Communication-Efficient Parallel Algorithm for Decision Tree

Qi Meng, Guolin Ke|arXiv (Cornell University)|2016. 11. 04.

Data Mining Algorithms and Applications참고 문헌 21인용 수 69

한 줄 요약

이 논문은 병렬 투표 결정 트리(PV-Tree)를 제안한다. PV-Tree는 의사결정트리 및 기울기 부스팅 모델 학습을 위한 통신 효율적인 병렬 알고리즘으로, 최상위 특성에 한해 통신을 줄이기 위해 국지적 및 전역적 투표를 사용한다. PV-Tree는 총 특성 수에 관계없이 통신 비용이 낮으면서도 높은 정확도를 유지하여 실제 데이터셋에서 기존 방법들에 비해 속도-정확도 트레이드오��에서 뚜렷한 우월성을 보인다.

ABSTRACT

Decision tree (and its extensions such as Gradient Boosting Decision Trees and Random Forest) is a widely used machine learning algorithm, due to its practical effectiveness and model interpretability. With the emergence of big data, there is an increasing need to parallelize the training process of decision tree. However, most existing attempts along this line suffer from high communication costs. In this paper, we propose a new algorithm, called \emph{Parallel Voting Decision Tree (PV-Tree)}, to tackle this challenge. After partitioning the training data onto a number of (e.g., $M$) machines, this algorithm performs both local voting and global voting in each iteration. For local voting, the top-$k$ attributes are selected from each machine according to its local data. Then, globally top-$2k$ attributes are determined by a majority voting among these local candidates. Finally, the full-grained histograms of the globally top-$2k$ attributes are collected from local machines in order to identify the best (most informative) attribute and its split point. PV-Tree can achieve a very low communication cost (independent of the total number of attributes) and thus can scale out very well. Furthermore, theoretical analysis shows that this algorithm can learn a near optimal decision tree, since it can find the best attribute with a large probability. Our experiments on real-world datasets show that PV-Tree significantly outperforms the existing parallel decision tree algorithms in the trade-off between accuracy and efficiency.

연구 동기 및 목표

기존 병렬 의사결정트리 알고리즘에서 높은 통신 비용 문제를 해결하며, 특히 모든 특성의 히스토GRAM을 교환해야 하는 데이터 병렬 환경에서의 문제를 해결한다.
확장 가능하고 통신 효율적인 병렬 의사결정트리 학습 방법을 개발하여 높은 모델 정확도를 유지한다.
모델 품질을 유지하면서도 기울기 부스팅 및 랜덤 포레스트 모델의 대규모 효율적 학습을 가능하게 하기 위해 상호 기계 간 통신을 최소화한다.
투표 기반 특성 선택을 통해 근사 최적의 분할을 고려할 확률이 매우 높다는 이론적 근거를 제시한다.

제안 방법

M台의 기계에 걸쳐 훈련 데이터를 수평적으로 분할하여 각 기계가 샘플의 부분집합을 처리하도록 한다.
국지적 투표 수행: 각 기계가 자신의 국지적 데이터에서 정보량이 높은 상위-k개 특성(예: 정보량 증가 또는 위험 감소 기준)을 선택한다.
전역적 투표 수행: 기계들 간의 국지적 상위-k 선택 결과를 집계하고, 다수결 투표를 통해 전역적으로 상위-2k개 특성을 선정한다.
전역적으로 상위-2k개 특성에 대해 모든 기계에서 전체 정밀 히스토GRAM을 수집하여 전역 분포를 계산한다.
집계된 전역 히스토GRAM을 기반으로 정보량 점수(예: 정보량 증가)를 평가하여 최적의 분할을 식별한다.
반복적으로 이 과정을 수행하여 의사결정트리를 성장시키며, 통신은 최종 후보 집합의 특성 인덱스와 전체 히스토GRAM에 한정한다.

실험 결과

연구 질문

RQ1기존 데이터 병렬 접근 방식에 비해 통신 비용을 크게 줄이면서도 높은 정확도를 달성할 수 있는 병렬 의사결정트리 알고리즘이 존재하는가?
RQ2후보 특성 선택에 투표 기반 접근 방식을 사용할 경우, 전역 최적의 분할을 찾을 확률에 어떤 영향을 미치는가?
RQ3기계 수와 국지적 데이터 크기가 알고리즘의 수렴성과 정확도에 어떤 영향을 미치는가?
RQ4국지적으로 선택하는 특성 수 k의 값이 통신 비용과 모델 성능 간의 트레이드오프에 어떤 영향을 미치는가?

주요 결과

PV-Tree는 기존의 데이터 병렬 방법에 비해 상당히 낮은 통신 비용을 기록한다. 전체 특성 수에 관계없이 상위-k 특성의 인덱스와 전역적으로 상위-2k 특성의 전체 히스토GRAM만 통신하기 때문이다.
실제 랭킹 및 클릭스루율 예측 데이터셋에 대한 실험 결과, PV-Tree는 기존 병렬 GBDT 알고리즘보다 훈련 속도와 모델 정확도 양면에서 뛰어난 성능을 보였다.
기계 수가 최적점(예: 8대에서 16대)을 초과할 경우, 통신 오버헤드 증가와 기계당 데이터 감소로 인해 수렴 속도가 떨어지는 경향을 보였으며, 이는 이론적 기대와 일치한다.
LTR 및 CTR 작업 모두에서 k ≤ 40일 경우 근사 최적의 정확도를 달성하며, 기계 수가 적을 경우 기계당 데이터가 많기 때문에 더 작은 k 값(예: k=5)으로도 충분히 높은 성능을 기대할 수 있다.
PV-Tree는 고립된 방식으로 트리를 학습하는 기준선 방법(Svore 및 Yu)보다 우수한 성능을 보였다. 이는 정보 공유 부족으로 인한 모델 편향과 열악한 수렴점 문제를 야기하기 때문이다.
이론적 분석을 통해 PV-Tree는 국지적 데이터가 전체 데이터셋을 잘 대표할 경우 전역적으로 최적의 특성을 높은 확률로 식별할 수 있음을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.