[논문 리뷰] To tune or not to tune the number of trees in random forest?
논문은 이론적으로 그리고 경험적으로 분류를 위한 랜덤 포레스트의 기대 오류율이 트리 수(T)에서 비단조적일 수 있음을 보이며, 반면 Brier 점수, 로그 손실, 회귀 MSE는 T에 대해 단조적이다; T를 조정하는 것에 반대하고 규모가 큰 계산적으로 실행 가능한 T를 사용하는 것을 권고한다.
The number of trees T in the random forest (RF) algorithm for supervised learning has to be set by the user. It is controversial whether T should simply be set to the largest computationally manageable value or whether a smaller T may in some cases be better. While the principle underlying bagging is that "more trees are better", in practice the classification error rate sometimes reaches a minimum before increasing again for increasing number of trees. The goal of this paper is four-fold: (i) providing theoretical results showing that the expected error rate may be a non-monotonous function of the number of trees and explaining under which circumstances this happens; (ii) providing theoretical results showing that such non-monotonous patterns cannot be observed for other performance measures such as the Brier score and the logarithmic loss (for classification) and the mean squared error (for regression); (iii) illustrating the extent of the problem through an application to a large number (n = 306) of datasets from the public database OpenML; (iv) finally arguing in favor of setting it to a computationally feasible large number, depending on convergence properties of the desired performance measure.
연구 동기 및 목표
- 랜덤 포레스트에서 트리 수 T를 조정해야 하는지 아니면 큰 규모의 실행 가능한 값으로 설정해야 하는지 다룬다.
- T가 커짐에 따라 기대 오류율이 어떻게 작용하는지 이론적으로 특징화한다.
- 다양한 데이터 세트에서 비단조적 오류율 패턴의 보편성을 실증적으로 평가한다.
- 실용적인 T 선택에 대한 지침을 제시하고 수렴성을 평가하기 위한 OOBCurve 도구를 소개한다.
제안 방법
- 관측별 예측 난이도 ε_i를 사용하여 T의 함수로 기대 성능 지표(오류율, Brier 점수, 로그 손실)의 이론적 표현을 도출한다.
- 분류의 경우 오류율이 T에 대해 비단조적일 수 있음을 보이고, Brier 점수와 로그 손실은 T에 대해 엄격하게 감소하며 AUC는 비단조적일 수 있다.
- AUC 동작을 분석하고 OOB 오류 맥락에 맞춰 모델을 조정한다.
- OpenML의 193개 분류 작업과 113개 회귀 작업에서 2000개의 트리와 1000개의 무작위 시드를 사용하여 OOB 곡선을 관찰하는 대규모 실증 연구를 수행한다.
- 다양한 지표에 대해 OOB 곡선을 계산하는 R 패키지 OOBCurve를 제공한다.
실험 결과
연구 질문
- RQ1관측 수 T의 함수로서 기대 분류 오류율이 단조로운가, 특정 데이터 조건에서 비단조적일 수 있는가?
- RQ2다른 성능 지표들(Brier 점수, 로그 손실, MSE, AUC)이 T에서 단조로운 거동을 보이는가, 어떤 상황에서 그런가?
- RQ3실제 데이터에서 비단조적 오류율 패턴은 얼마나 보편적인가, 어떤 데이터셋 특성이 이를 예측하는가?
- RQ4실무자들은 T를 조정해야 하는가 아니면 수렴 특성에 따라 크고 계산적으로 실행 가능한 T를 단순히 사용하는 것이 바람직한가?
- RQ5OOBCurve 도구가 수렴성 평가를 돕고 T 선택에 도움이 될 수 있는가?
주요 결과
- 일부 관찰에서 기대 분류 오류율이 T에 대해 비단조적일 수 있어 데이터셋 전반에 걸친 평균 오류 곡선이 비단조적이다.
- 이진 분류의 경우 Brier 점수와 로그 손실은 평균적으로 T가 증가할수록 엄격하게 감소하지만, AUC는 일부 경우에서 비단조적일 수 있다.
- 회귀의 경우 평균 제곱 오차(MSE)는 T가 증가할수록 감소하지만, 일부 중앙값 기반 오차는 특정 구간에서 비단조성을 보일 수 있다.
- 실증적으로 OpenML 데이터셋의 약 10%가 비단조적인 OOB 오류율 곡선을 보였으며, 종종 ε_i 값이 0.5에 근접한 경우 효과를 유도했다.
- 비단조 패턴은 작은 데이터셋에서 더 흔하며, 2000개의 트리에서 OOB 곡선의 수렴이 더 크게 관찰되었다.
- 본 연구는 원하는 성능 지표의 수렴 진단을 통해 조정보다는 계산적으로 실행 가능한 큰 T를 사용하는 것을 권장한다.
- 다양한 성능 지표에 대해 OOB 곡선을 계산하는 R 패키지 OOBCurve가 도입되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.