[논문 리뷰] Enhancing Robustness of Gradient-Boosted Decision Trees through One-Hot Encoding and Regularization
논문은 GBDT를 leaves의 원-핫 인코딩을 통해 선형 모델로 변환하고, covariate perturbations에 대한 견고성을 개선하기 위해 L1/L2 정규화로 재적합을 수행하며 이론과 실험으로 뒷받침한다.
Gradient-boosted decision trees (GBDT) are widely used and highly effective machine learning approach for tabular data modeling. However, their complex structure may lead to low robustness against small covariate perturbation in unseen data. In this study, we apply one-hot encoding to convert a GBDT model into a linear framework, through encoding of each tree leaf to one dummy variable. This allows for the use of linear regression techniques, plus a novel risk decomposition for assessing the robustness of a GBDT model against covariate perturbations. We propose to enhance the robustness of GBDT models by refitting their linear regression forms with $L_1$ or $L_2$ regularization. Theoretical results are obtained about the effect of regularization on the model performance and robustness. It is demonstrated through numerical experiments that the proposed regularization approach can enhance the robustness of the one-hot-encoded GBDT models.
연구 동기 및 목표
- GBDT의 견고성 평가를 촉진하고 covariate perturbations 하에서의 취약성을 식별한다.
- GBDT를 선형 모델로 표현하는 원-핫 인코딩 프레임워크(GBDT OHE)를 도입한다.
- 원-핫 인코딩 형태에 대한 규제된 재적합(L1/L2)을 제안하여 견고성을 향상시킨다.
- GBDT의 perturbation을 분석하고 견고성을 정량화하는 위험 분해 도구를 개발한다.
- 정규화로 인한 견고성 향상을 보여주는 이론적 결과와 수치 증거를 제공한다.
제안 방법
- GBDT를 각 트리 리프를 더미 변수로 원-핫 인코딩하여 선형 모델로 표현한다(GBDT OHE).
- F_M(x)를 F_M(x)=sum_k b_k phi_k(x) = Phi(x)^T beta로 표현하여 선형 회귀 적합을 가능하게 한다.
- 위험을 편향/분산/perturbation 성분으로 분해하기 위해 Delta Phi라는 섭동 항을 도입한다.
- OHE 후 리프 계수를 재적합할 때 L1(Lasso) 또는 L2(Ridge) 정규화를 적용하여 고차원 분산을 제어한다.
- 강건 회귀 및 정규화에서 견고성 이점을 보이는 이론적 연결성(정리 (Theorem 1))을 제공한다.
- 실제 데이터셋(Airfoil, CHP 등)에서 XGBoost 기본 모델과 OHE + 정규화를 비교하는 수치 실험을 수행한다.
실험 결과
연구 질문
- RQ1일반적인 GBDT 모델은 보지 않은 데이터의 작은 perturbation에 얼마나 견고한가?
- RQ2GBDT 리프의 원-핫 인코딩이 견고성을 분석하는 선형 프레임워크를 가능하게 하는가?
- RQ3원-핫 인코딩된 GBDT를 L1 또는 L2 정규화로 재적합하면 성능 손실 없이 견고성이 향상되는가?
- RQ4정규화 크기가 GBDT OHE의 편향, 분산, perturbation 항에 미치는 영향은 무엇인가?
- RQ5정규화된 GBDT OHE 모델이 공변량 perturbation 하에서 표준 XGBoost보다 더 나은 견고성을 보이는가?
주요 결과
| 모델 | Airfoil(0%) | Airfoil(2%) | Airfoil(5%) | CHP(0%) | CHP(2%) | CHP(5%) | BS(0%) | BS(5%) | BS(10%) |
|---|---|---|---|---|---|---|---|---|---|
| XGB | 0.032/0 | 0.074/0.046 | 0.156/0.134 | 0.154/0 | 0.202/0.058 | 0.324/0.180 | 0.159/0 | 0.215/0.059 | 0.349/0.198 |
| XGB_reg | 0.033/0 | 0.071/0.039 | 0.153/0.124 | 0.155/0 | 0.201/0.053 | 0.316/0.168 | 0.160/0 | 0.212/0.057 | 0.343/0.196 |
| OHE_Ridge_s | 0.020/0 | 0.053/0.032 | 0.120/0.099 | 0.151/0 | 0.199/0.057 | 0.318/0.173 | 0.158/0 | 0.212/0.057 | 0.345/0.197 |
| OHE_Ridge_m | 0.021/0 | 0.052/0.029 | 0.119/0.092 | 0.155/0 | 0.194/0.039 | 0.295/0.131 | 0.155/0 | 0.194/0.039 | 0.343/0.187 |
| OHE_Ridge_l | 0.029/0 | 0.054/0.025 | 0.117/0.083 | 0.170/0 | 0.201/0.028 | 0.287/0.102 | 0.161/0 | 0.213/0.051 | 0.342/0.181 |
| OHE_Lasso_s | 0.022/0 | 0.058/0.036 | 0.125/0.100 | 0.151/0 | 0.205/0.062 | 0.331/0.186 | 0.159/0 | 0.213/0.059 | 0.349/0.200 |
| OHE_Lasso_m | 0.025/0 | 0.055/0.033 | 0.121/0.098 | 0.153/0 | 0.201/0.053 | 0.317/0.164 | 0.158/0 | 0.212/0.056 | 0.346/0.196 |
| OHE_Lasso_l | 0.026/0 | 0.056/0.031 | 0.120/0.096 | 0.179/0 | 0.211/0.039 | 0.305/0.125 | 0.159/0 | 0.213/0.055 | 0.346/0.193 |
- GBDT 모델은 부스팅 복잡도가 증가함에 따라 perturbation에 민감해지는 위험 분해를 통해 견고성이 감소할 수 있다.
- GBDT 리프의 원-핫 인코딩은 선형 표현(GBDT OHE)을 가능하게 하고 새로운 견고성 위험 분해를 가능하게 한다.
- L1 또는 L2 페널티로 재적합된 선형 형태를 정규화하면 perturbation 항을 줄이고 견고성을 향상시키되 편향/분산의 trade-off가 있다.
- 수치 결과는 작은 정규화가 perturbation이 없는 경우 기본 성능과 비슷하거나 향상되며 perturbation 하에서 견고성을 개선한다.
- 더 큰 정규화는 더 큰 unseen 데이터 perturbation에 대한 견고성을 높이지만 편향이 커질 수 있다.
- 정규화된 XGBoost 기반(XGB_reg) 대비 일반적으로 GBDT OHE with regularization이 데이터 perturbation에 대해 더 나은 견고성을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.