Skip to main content
QUICK REVIEW

[논문 리뷰] There is no Double-Descent in Random Forests

Sebastian Buschjäger, Katharina Morik|arXiv (Cornell University)|2021. 11. 08.
Machine Learning and Data Classification인용 수 3
한 줄 요약

이 논문은 랜덤 포레스트(RFs)가 모델 복잡도가 증가함에 따라 이중 내림(descend) 일반화 행동을 보인다는 널리 인용된 주장에 도전하며, 오히려 RFs가 모델 복잡도가 증가함에 따라 테스트 오차가 단일 내림을 보임을 입증한다. 저자들은 RFs가 과적합의 고전적 의미에서 과적합되지 않음을 보여주며, 특히 과적합된 결정 트리에서 유래한 데이터로 훈련된 경우에도 마찬가지로 과적합되지 않음을 확인한다. 또한, 최적 성능이 모델 용량이 아닌 편향과 다양성의 균형 잡힌 상호보완 관계에서 유도됨을 실증적으로 검증하기 위해 음의 상관관계 포레스트(NCForest)를 제안한다.

ABSTRACT

Random Forests (RFs) are among the state-of-the-art in machine learning and offer excellent performance with nearly zero parameter tuning. Remarkably, RFs seem to be impervious to overfitting even though their basic building blocks are well-known to overfit. Recently, a broadly received study argued that a RF exhibits a so-called double-descent curve: First, the model overfits the data in a u-shaped curve and then, once a certain model complexity is reached, it suddenly improves its performance again. In this paper, we challenge the notion that model capacity is the correct tool to explain the success of RF and argue that the algorithm which trains the model plays a more important role than previously thought. We show that a RF does not exhibit a double-descent curve but rather has a single descent. Hence, it does not overfit in the classic sense. We further present a RF variation that also does not overfit although its decision boundary approximates that of an overfitted DT. Similar, we show that a DT which approximates the decision boundary of a RF will still overfit. Last, we study the diversity of an ensemble as a tool the estimate its performance. To do so, we introduce Negative Correlation Forest (NCForest) which allows for precise control over the diversity in the ensemble. We show, that the diversity and the bias indeed have a crucial impact on the performance of the RF. Having too low diversity collapses the performance of the RF into a a single tree, whereas having too much diversity means that most trees do not produce correct outputs anymore. However, in-between these two extremes we find a large range of different trade-offs with all roughly equal performance. Hence, the specific trade-off between bias and diversity does not matter as long as the algorithm reaches this good trade-off regime.

연구 동기 및 목표

  • 랜덤 포레스트가 이중 내림 일반화 행동을 보인다는 주장에 도전하며, 이는 이전에 딥 네URAL 네트워크에서 보고되었고 RFs에 대해서도 주장된 바 있다.
  • 모델 용량이 아닌 훈련 알고리즘이 RFs의 과적합에 대한 강건성의 주요 원인인지 탐구한다.
  • 특히 일반화 오차와의 관계에서 다양성과 편향이 앙상블 성능에 미치는 영향을 평가한다.
  • 편향과 다양성을 제어할 수 있도록 설계된 새로운 알고리즘인 음의 상관관계 포레스트(NCForest)를 개발하고 검증한다.

제안 방법

  • 저자들은 모델 복잡도를 측정하기 위해 라데마처 복잡도를 사용하지만, 전체 숲의 노드 수보다는 트리당 평균 결합 노드 수가 더 적절하다고 주장한다.
  • 다양한 트리 깊이와 데이터셋 크기에서 랜덤 포레스트와 결정 트리의 테스트 오차 곡선을 비교하여, RFs는 단일 내림을 보이는 반면 DTs는 고전적인 U자형 과적합을 보임을 보여준다.
  • 저자들은 음의 상관관계 포레스트(NCForest)를 도입하여, 상관관계 페널티를 통해 트리 간의 다양성을 명시적으로 제어할 수 있도록 수정된 RF 알고리즘을 개발한다.
  • 앙상블 손실을 편향과 다양성 성분으로 분해하며, 공식: ensemble loss = bias + 1/(2M) * Σ(di * T_D * di) 를 사용한다. 여기서 di는 트리 i가 앙상블에서 벗어난 정도를 의미한다.
  • 다양한 데이터셋(Adult, Bank, EEG, Magic, Nomao)에서 실험을 수행하며, 5겹 교차검증을 평균화하여 다양한 다양성 수준에서의 성능을 평가한다.
  • 다양성, 편향, 테스트 오차 간의 관계를 분석하여, 낮은 다양성과 높은 다양성 모두에서 성능이 떨어지는 'bathtub-shaped' 상관관계를 규명한다.

실험 결과

연구 질문

  • RQ1랜덤 포레스트가 모델 복잡도가 증가함에 따라 이중 내림 곡선을 보이는가? 이는 이전에 보고된 바 있다.
  • RQ2과적합된 결정 트리에서 생성된 데이터로 훈련된 랜덤 포레스트의 성능은 원래의 과적합된 트리와 비교해 어떻게 되는가?
  • RQ3좋은 성능을 내는 랜덤 포레스트에서 유래한 데이터로 훈련된 결정 트리는 과적합을 피할 수 있는가, 아니면 소스의 과적합 행동을 그대로 물려받는가?
  • RQ4라데마처 복잡도는 랜덤 포레스트에서 일반화 성능을 예측하는 데 신뢰할 수 있는가?
  • RQ5트리 앙상블에서 편향과 다양성의 최적 균형은 무엇이며, 일반화 오차에 어떤 영향을 미치는가?

주요 결과

  • 랜덤 포레스트는 이중 내림을 보이지 않으며, 오히려 모델 복잡도가 증가함에 따라 테스트 오차가 단일 내림을 보여, 고전적 과적합이 없음을 시사한다.
  • 과적합된 결정 트리에서 생성된 데이터로 훈련된 경우조차도 랜덤 포레스트는 과적합되지 않으며, 이는 앙상블 알고리즘이 기저 학습기의 행동과 무관하게 과적합을 방지함을 보여준다.
  • 좋은 성능을 내는 랜덤 포레스트에서 유래한 데이터로 훈련된 결정 트리는 여전히 과적합되며, 이는 RFs의 우수한 일반화 성능이 개별 트리로 이행되지 않음을 보여준다.
  • 라데마처 복잡도는 성능 예측에 실패한다: RF의 복잡도보다 낮은 복잡도를 가진 결정 트리가 훨씬 악한 테스트 오차를 보일 수 있다.
  • NCForest에서 다양한 다양성 수준이 유사한 성능을 보이며, 정확한 편향-다양성 상호보완 관계보다 균형 잡힌 상태를 확보하는 것이 더 중요하다는 것을 시사한다.
  • 랜덤 포레스트의 최적 성능는 편향과 다양성의 균형 잡힌 상호보완 관계를 통해 달성되며, 너무 적거나 너무 많은 다양성은 성능을 떨어뜨린다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.