QUICK REVIEW

[논문 리뷰] To tune or not to tune the number of trees in random forest?

Philipp Probst, Anne‐Laure Boulesteix|arXiv (Cornell University)|2017. 05. 16.

Machine Learning and Data Classification인용 수 107

한 줄 요약

논문은 이론적으로 그리고 경험적으로 분류를 위한 랜덤 포레스트의 기대 오류율이 트리 수(T)에서 비단조적일 수 있음을 보이며, 반면 Brier 점수, 로그 손실, 회귀 MSE는 T에 대해 단조적이다; T를 조정하는 것에 반대하고 규모가 큰 계산적으로 실행 가능한 T를 사용하는 것을 권고한다.

ABSTRACT

The number of trees T in the random forest (RF) algorithm for supervised learning has to be set by the user. It is controversial whether T should simply be set to the largest computationally manageable value or whether a smaller T may in some cases be better. While the principle underlying bagging is that "more trees are better", in practice the classification error rate sometimes reaches a minimum before increasing again for increasing number of trees. The goal of this paper is four-fold: (i) providing theoretical results showing that the expected error rate may be a non-monotonous function of the number of trees and explaining under which circumstances this happens; (ii) providing theoretical results showing that such non-monotonous patterns cannot be observed for other performance measures such as the Brier score and the logarithmic loss (for classification) and the mean squared error (for regression); (iii) illustrating the extent of the problem through an application to a large number (n = 306) of datasets from the public database OpenML; (iv) finally arguing in favor of setting it to a computationally feasible large number, depending on convergence properties of the desired performance measure.

연구 동기 및 목표

랜덤 포레스트에서 트리 수 T를 조정해야 하는지 아니면 큰 규모의 실행 가능한 값으로 설정해야 하는지 다룬다.
T가 커짐에 따라 기대 오류율이 어떻게 작용하는지 이론적으로 특징화한다.
다양한 데이터 세트에서 비단조적 오류율 패턴의 보편성을 실증적으로 평가한다.
실용적인 T 선택에 대한 지침을 제시하고 수렴성을 평가하기 위한 OOBCurve 도구를 소개한다.

제안 방법

관측별 예측 난이도 ε_i를 사용하여 T의 함수로 기대 성능 지표(오류율, Brier 점수, 로그 손실)의 이론적 표현을 도출한다.
분류의 경우 오류율이 T에 대해 비단조적일 수 있음을 보이고, Brier 점수와 로그 손실은 T에 대해 엄격하게 감소하며 AUC는 비단조적일 수 있다.
AUC 동작을 분석하고 OOB 오류 맥락에 맞춰 모델을 조정한다.
OpenML의 193개 분류 작업과 113개 회귀 작업에서 2000개의 트리와 1000개의 무작위 시드를 사용하여 OOB 곡선을 관찰하는 대규모 실증 연구를 수행한다.
다양한 지표에 대해 OOB 곡선을 계산하는 R 패키지 OOBCurve를 제공한다.

실험 결과

연구 질문

RQ1관측 수 T의 함수로서 기대 분류 오류율이 단조로운가, 특정 데이터 조건에서 비단조적일 수 있는가?
RQ2다른 성능 지표들(Brier 점수, 로그 손실, MSE, AUC)이 T에서 단조로운 거동을 보이는가, 어떤 상황에서 그런가?
RQ3실제 데이터에서 비단조적 오류율 패턴은 얼마나 보편적인가, 어떤 데이터셋 특성이 이를 예측하는가?
RQ4실무자들은 T를 조정해야 하는가 아니면 수렴 특성에 따라 크고 계산적으로 실행 가능한 T를 단순히 사용하는 것이 바람직한가?
RQ5OOBCurve 도구가 수렴성 평가를 돕고 T 선택에 도움이 될 수 있는가?

주요 결과

일부 관찰에서 기대 분류 오류율이 T에 대해 비단조적일 수 있어 데이터셋 전반에 걸친 평균 오류 곡선이 비단조적이다.
이진 분류의 경우 Brier 점수와 로그 손실은 평균적으로 T가 증가할수록 엄격하게 감소하지만, AUC는 일부 경우에서 비단조적일 수 있다.
회귀의 경우 평균 제곱 오차(MSE)는 T가 증가할수록 감소하지만, 일부 중앙값 기반 오차는 특정 구간에서 비단조성을 보일 수 있다.
실증적으로 OpenML 데이터셋의 약 10%가 비단조적인 OOB 오류율 곡선을 보였으며, 종종 ε_i 값이 0.5에 근접한 경우 효과를 유도했다.
비단조 패턴은 작은 데이터셋에서 더 흔하며, 2000개의 트리에서 OOB 곡선의 수렴이 더 크게 관찰되었다.
본 연구는 원하는 성능 지표의 수렴 진단을 통해 조정보다는 계산적으로 실행 가능한 큰 T를 사용하는 것을 권장한다.
다양한 성능 지표에 대해 OOB 곡선을 계산하는 R 패키지 OOBCurve가 도입되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.