[논문 리뷰] Random Forests, Decision Trees, and Categorical Predictors: The "Absent Levels" Problem
이 논문은 랜덤 포레스트와 같은 의사결정트리 기반 모델에서 추론 중에 미리 보지 못한 분류형 수준이 존재할 경우, 학습 중에 이러한 수준이 포함되지 않아 발생하는 분할 행동이 정의되지 않아 생기는 체계적 편향을 규명하고 분석한다. 저자들은 실제 사례와 실험적 테스트를 통해 간단한 히우리스틱(특히 Random 히우리스틱)이 기본적인 낙관적 접근 방식보다 편향을 더 효과적으로 완화할 수 있음을 입증한다. 이는 체계적으로 결함이 있는 접근 방식이다.
One advantage of decision tree based methods like random forests is their ability to natively handle categorical predictors without having to first transform them (e.g., by using feature engineering techniques). However, in this paper, we show how this capability can lead to an inherent "absent levels" problem for decision tree based methods that has never been thoroughly discussed, and whose consequences have never been carefully explored. This problem occurs whenever there is an indeterminacy over how to handle an observation that has reached a categorical split which was determined when the observation in question's level was absent during training. Although these incidents may appear to be innocuous, by using Leo Breiman and Adele Cutler's random forests FORTRAN code and the randomForest R package (Liaw and Wiener, 2002) as motivating case studies, we examine how overlooking the absent levels problem can systematically bias a model. Furthermore, by using three real data examples, we illustrate how absent levels can dramatically alter a model's performance in practice, and we empirically demonstrate how some simple heuristics can be used to help mitigate the effects of the absent levels problem until a more robust theoretical solution is found.
연구 동기 및 목표
- 의사결정트리 기반 모델에서 학습 중에 존재하지 않지만 추론 중에 나타나는 분류형 예측 변수 수준이 정의되지 않은 행동을 유도하는 '없는 수준들' 문제를 규명하고 체계화한다.
- 이 문제가 랜덤 포레스트 R 패키지와 브라이먼 & 커틸러의 FORTRAN 코드 등 널리 사용되는 구현 방식에서 체계적 편향을 유발함을 입증한다.
- 세 가지 실세계 데이터셋을 사용하여 없는 수준이 모델 성능에 미치는 영향을 경험적으로 평가하고, 처리되지 않은 경우 심각한 성능 저하가 발생함을 보여준다.
- 실용적인 히우리스틱(예: Random, Majority, One-Hot 인코딩)을 제안하고 평가하여, 체계적인 이론적 해결책이 개발될 때까지 없는 수준 문제를 완화한다.
- 소프트웨어 및 사용자 수준의 변화를 촉구하며, 특징 공학 및 Random과 같은 신뢰할 수 있는 히우리스틱의 도입을 통해 생산 환경에서 편향된 예측을 방지한다.
제안 방법
- 연구는 브라이먼과 커틀러의 원래 랜덤 포레스트 FORTRAN 코드와 널리 사용되는 randomForest R 패키지를 사례 연구로 삼아, 실질적으로 없는 수준이 어떻게 처리되고 있는지 분석한다.
- 저자들은 세 가지 실세계 데이터셋을 대상으로 없는 수준 문제를 시뮬레이션하여, 추론 중에 이전에 본 적 없는 분류형 수준을 도입함으로써 모델의 행동과 성능 저하를 평가한다.
- 왼쪽/오른쪽(기본적인 낙관적 선택), 정지(예측 중단), DBI(거리 기반 보간), Majority, Random, One-Hot 인코딩 등의 히우리스틱을 사용해 없는 수준을 처리하는 방법을 평가한다.
- 로그 손실을 성능 측정 지표로 사용하고, 1,000회의 실험 반복을 통해 각 히우리스틱의 안정성과 일관성을 평가한다.
- Random 히우리스틱은 일관된 성능과 기존 randomForest R 패키지 워크플로우에의 쉽게 통합 가능성이 있어 플러그인 솔루션으로 구현되었다.
- 히우리스틱의 성능을 기본적인 낙관적 접근 방식과 비교하고, 편향, 분산, 예측 정확도 간의 상호 교환 관계를 평가한다.
실험 결과
연구 질문
- RQ1추론 중에 이전에 본 적 없는 분류형 수준이 의사결정트리 기반 모델(예: 랜덤 포레스트)의 행동과 성능에 어떤 영향을 미치는가?
- RQ2기본적인 랜덤 포레스트 구현 방식(예: randomForest R 패키지)이 없는 분류형 수준에 직면했을 때 왜 체계적으로 편향된 예측을 하는가?
- RQ3다양한 실세계 데이터셋에서 가장 강력하고 정확한 예측을 제공하는 없는 수준 처리 히우리스틱 전략은 무엇인가?
- RQ4학습 데이터에 없는 수준이 존재할 경우, 간단한 실용적 히우리스틱이 Left 또는 Right 분할과 같은 기본적인 낙관적 전략을 뛰어넘을 수 있는가?
- RQ5특징 공학은 없는 수준 문제를 얼마나 효과적으로 완화할 수 있으며, 언제 히우리스틱 기반 솔루션보다 덜 효과적일 수 있는가?
주요 결과
- 없는 수준 문제로 인해 랜덤 포레스트와 의사결정트리에서 체계적 편향이 발생하며, randomForest R 패키지 및 브라이먼 & 커틀러의 FORTRAN 코드 등 기본 구현 방식은 수준이 없는 경우 임의로 왼쪽 또는 오른쪽으로 결정한다.
- 왼쪽 및 오른쪽 히우리스틱은 최고 성능을 보인 데이터 누락 처리 히우리스틱보다 각각 0.7% 및 1.9% 높은 로그 손실을 기록하여 명백하고 일관된 편향이 있음을 시사한다.
- Majority 및 Random 히우리스틱은 1,000회의 실험 중 999회에서 다른 모든 데이터 누락 처리 히우리스틱을 능가했으며, 가장 낮은 로그 손실을 기록하고 높은 신뢰성을 보였다.
- One-Hot 인코딩 히우리스틱은 가끔 다른 데이터 누락 처리 히우리스틱을 능가했지만, 평균적으로 최고 성능 히우리스틱보다 4.5% 높은 로그 손실을 기록하여 성능이 열등함을 시사한다.
- Random 히우리스틱은 일관되게 경쟁력 있었고, 구현이 용이하여 소프트웨어 및 사용자 수준의 일시적 표준으로 권장된다.
- 문제는 예측을 넘어서 변수 중요도, 이상치 탐지, 트리 기반 모델에서의 보간 등 후속 작업에도 영향을 미쳐 머신러닝 파이프라인 전반에 걸쳐 광범위한 영향을 미친다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.