[논문 리뷰] Uncertainty in Gradient Boosting via Ensembles
본 논문은 데이터 및 지식 불확실성을 정량화하기 위해 Stochastic Gradient Langevin Boosting(SGLB)와 가상 앙상블(vSGLB)을 포함한 그래디언트 부스팅 의사결정 트리(GBDT)에 대한 앙상블 기반 불확실성 추정 방법을 제안하며, 외부 도메인 탐지(out-of-domain detection)에의 적용을 다룬다.
For many practical, high-risk applications, it is essential to quantify uncertainty in a model's predictions to avoid costly mistakes. While predictive uncertainty is widely studied for neural networks, the topic seems to be under-explored for models based on gradient boosting. However, gradient boosting often achieves state-of-the-art results on tabular data. This work examines a probabilistic ensemble-based framework for deriving uncertainty estimates in the predictions of gradient boosting classification and regression models. We conducted experiments on a range of synthetic and real datasets and investigated the applicability of ensemble approaches to gradient boosting models that are themselves ensembles of decision trees. Our analysis shows that ensembles of gradient boosting models successfully detect anomalous inputs while having limited ability to improve the predicted total uncertainty. Importantly, we also propose a concept of a virtual ensemble to get the benefits of an ensemble via only one gradient boosting model, which significantly reduces complexity.
연구 동기 및 목표
- 표형 데이터에 사용되는 GBDT 모델에서 예측 불확실성의 필요성을 동기화하고 공식화한다.
- GBDT 예측에서 데이터 불확실성과 지식 불확실성을 분리하기 위한 앙상블 기반 프레임워크를 개발한다.
- 계산 비용을 줄이기 위해 SGB 및 SGLB의 앙상블 모델 생성 방법을 제안하고 가상 앙상블(vSGLB)을 도입한다.
- 합성 데이터에서의 앙상블 기반 불확실성 추정의 특성을 분석하고 분류 및 회귀 벤치마크에서 평가한다.
제안 방법
- 모델 매개변수를 확률 변수로 간주하고 예측을 사후 샘플에 걸쳐 집계하는 베이지안 앙상블 관점에서 불확실성을 프레이밍한다.
- 엔트로피 기반의 전체 불확실성과 상호정보 기반의 지식 불확실성, 그리고 회귀에 대한 분산 기반 분해를 설명한다.
- 세 가지 앙상블 전략(SGB: 랜덤 데이터 서브샘플링, SGLB: 포스터리어에서 샘플링하기 위한 Langevin 다이내믹스, 가상 SGLB: 단일 GBDT의 잘린 서브모델을 사용하는)을 특징짓다.
- 가우시안 노이즈 주입과 수축 기반 업데이트 규칙을 사용하여 정지(스테이셔너리) 사후 분포를 얻는 SGLB의 업데이트를 설명한다.
- SGLB 궤적에서 매 K번째 매개변수 집합을 선택하여 비용을 줄인 앙상블을 구성하는 가상 앙상블 구성을 도입한다.
- 회귀에는 NGBoost 스타일의 예측 분포(평균 및 분산), 분류에는 클래스에 대한 분포를 활용하고, 음의 로그가능도(negative log-likelihood)로 학습한다.
실험 결과
연구 질문
- RQ1앙상블 방법(SGB, SGLB)이 GBDT 모델의 데이터 불확실성과 지식 불확실성에 대한 의미 있는 추정치를 제공할 수 있는가?
- RQ2가상 앙상블(vSGLB)이 계산 비용을 줄이면서 불확실성의 이점을 유지할 수 있는가?
- RQ3분류 및 회귀 작업에서 외부 도메인 입력 및 오류 탐지에 대한 앙상블 기반 불확실성 추정의 성능은 어떠한가?
- RQ4GBDT의 실용적 불확실성 추정에서 SGB 대 SGLB 대 vSGLB의 비교적 이점은 무엇인가?
주요 결과
- GBDT 모델의 앙상블은 총 불확실성과 지식 불확실성이 증가함으로써 이상한(Out-of-domain) 입력을 탐지할 수 있으며, 지식 불확실성은 OOD 영역을 강조한다.
- SGLB 앙상블은 점진적으로 진짜 사후에서 샘플링에 이르고, 원칙적인 불확실성 추정을 가능하게 한다.
- 단일 GBDT 모델에서 파생된 가상 앙상블(vSGLB)은 특히 범주형 특성을 가진 분류에서 유용한 지식 불확실성 신호를 제공하면서도 계산 비용을 줄일 수 있다.
- 회귀 및 분류 작업에서 총 불확실성이 일반적으로 오류 탐지에 더 효과적이며, 지식 불확실성은 더 강한 OOD 신호를 제공한다.
- 자른 서브모델 간의 상관관계로 인해 vSGLB는_actual SGLB_ 앙상블보다 성능이 떨어지는 경향이 있지만, 특정 상황에서 여전히 유용하다(특히 범주형 특성에서).
- 전반적으로 앙상블은 GBDT에 대한 원칙적인 불확실성 추정을 제공하며, 지식 불확실성을 사용할 때 OOD 탐지 성능이 향상되고, vSGLB는 비용은 저렴하지만 때로는 약한 대안으로 작용한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.