[논문 리뷰] Multi-Layered Gradient Boosting Decision Trees
이 논문은 회귀 GBDT를 쌓고 역전파 없이 대상-전파와 유사한 절차로 학습하는 다층형 GBDT 숲(mGBDTs)을 도입하여 계층적 표현을 학습하고, 표 데이터에서 표현 학습과 경쟁력 있는 성능을 보여준다.
Multi-layered representation is believed to be the key ingredient of deep neural networks especially in cognitive tasks like computer vision. While non-differentiable models such as gradient boosting decision trees (GBDTs) are the dominant methods for modeling discrete or tabular data, they are hard to incorporate with such representation learning ability. In this work, we propose the multi-layered GBDT forest (mGBDTs), with an explicit emphasis on exploring the ability to learn hierarchical representations by stacking several layers of regression GBDTs as its building block. The model can be jointly trained by a variant of target propagation across layers, without the need to derive back-propagation nor differentiability. Experiments and visualizations confirmed the effectiveness of the model in terms of performance and representation learning ability.
연구 동기 및 목표
- 표 데이터에 대한 GBDT와 같은 비미분 가능 모델에서 깊은 표현의 필요성을 동기화한다.
- 계층적 표현을 학습하기 위한 다층형 GBDT 아키텍처를 제안한다.
- 역전파 없이 의사-레이블을 이용해 모든 계층을 함께 최적화하는 학습 절차를 개발한다.
- 실제 데이터 세트에서 표현 학습과 경쟁력 있는 성능을 시연한다.
- 비미분형 심층 모델의 가능 확장 및 적용을 탐구한다.
제안 방법
- M-1개의 중간 계층과 최종 출력 계층으로 구성된 다층 피드포워드 구조를 구성한다.
- 전방 매핑 F_i를 비미분형 GBDT 기반의 계층으로 정의하고 역방향 매핑 G_i를 도입하여 의사-역을 형성한다.
- 타깃 전파의 변형을 사용: 최상층의 타깃을 역방향 매핑을 통해 아래로 전파하여 각 계층의 의사-레이블을 계산한다.
- 각 F_i를 의사-잔여량으로부터 파생된 의사-레이블에 도달하도록 그래디언트 부스팅 단계로 업데이트하고, forward 출력을 이전 계층 표현으로 매핑하도록 G_i를 학습시킨다.
- 역 경로에 가우시안 노이즈를 주입하여 학습을 정규화하고 안정화한다; 아주 작은 트리와 작은 가우시안 출력을 이용해 시작한다.
- F_i가 더 낮은 계층보다 먼저 업데이트되는 하향식 업데이트 스케줄을 제공하고, E 에폭 동안 반복 학습한다.
실험 결과
연구 질문
- RQ1비미분 가능 구성요소(GBDT)로 구성된 다층 모델을 역전파 없이 엔드투엔드로 학습할 수 있는가?
- RQ2스택된 GBDT 계층은 심층 신경망과 유사한 계층적, 분산 표현을 학습하는가?
- RQ3mGBDT는 감독 학습 및 비지도 설정에서 신경망 및 단일 GBDT와 비교하여 성능과 표현 학습 측면에서 어떤 차이를 보이는가?
- RQ4깊이를 증가시키면 표현 품질과 표 데이터의 분류/회귀 성능이 향상되는가?
주요 결과
| 모델 | Income 데이터셋 | Protein 데이터셋 |
|---|---|---|
| XGBoost | .8719 | .5937 ± .0324 |
| XGBoost Stacking | .8697 | .5592 ± .0400 |
| NN^{TargetProp} | 0.8491 | .5756 ± .0465 |
| NN^{BackProp} | 0.8534 | .5907 ± .0268 |
| Multi-layered GBDT | 0.8742 | .5948 ± .0268 |
- mGBDT는 보고된 실험에서 Income 데이터셋과 Protein 데이터셋에서 비교 방법들 중 최고 정확도를 달성한다.
- Income 데이터셋에서 mGBDT는 0.8742의 정확도를 달성했으며, XGBoost 0.8719, XGBoost Stacking 0.8697, NN(TargetProp) 0.8491, NN(BackProp) 0.8534와 유사한 경향을 보인다(Protein 데이터셋에서도 유사한 경향).
- 비지도식 mGBDT 자동인코더는 상위 계층에서 의미 있는 인코딩이 보이는 시각화를 통해 분산 표현을 생성할 수 있다.
- 더 깊은 mGBDT 스택은 시각화에서 점진적으로 더 나은 표현을 보여주고 실제 데이터 작업에서도 성능을 향상시킨다.
- 역전파나 타깃 전달에 의해 학습된 신경망과 비교할 때, mGBDT는 수렴 속도가 빠르고 테스트 데이터셋에서 경쟁력 있거나 우수한 정확도에 도달할 수 있다.
- 계층 깊이의 변화는 mGBDT 방식의 강건성을 시사하며, 타깃-전파 기반 신경망은 깊이가 증가할수록 강건성이 감소하는 경향이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.