[논문 리뷰] Neural Oblivious Decision Ensembles for Deep Learning on Tabular Data
NODE는 차별화 가능한 심층 아키텍처로, oblivious 의사결정 트리를 다층 앙상블로 확장하여 표 형식 데이터에서 최첨단 결과를 달성하고 종종 조정된 그래디언트 부스팅 방법을 능가합니다.
Nowadays, deep neural networks (DNNs) have become the main instrument for machine learning tasks within a wide range of domains, including vision, NLP, and speech. Meanwhile, in an important case of heterogenous tabular data, the advantage of DNNs over shallow counterparts remains questionable. In particular, there is no sufficient evidence that deep learning machinery allows constructing methods that outperform gradient boosting decision trees (GBDT), which are often the top choice for tabular problems. In this paper, we introduce Neural Oblivious Decision Ensembles (NODE), a new deep learning architecture, designed to work with any tabular data. In a nutshell, the proposed NODE architecture generalizes ensembles of oblivious decision trees, but benefits from both end-to-end gradient-based optimization and the power of multi-layer hierarchical representation learning. With an extensive experimental comparison to the leading GBDT packages on a large number of tabular datasets, we demonstrate the advantage of the proposed NODE architecture, which outperforms the competitors on most of the tasks. We open-source the PyTorch implementation of NODE and believe that it will become a universal framework for machine learning on tabular data.
연구 동기 및 목표
- GBDT와 비교해 전통적인 DNN이 성능이 저하되는 이질적인 표 형식 데이터에서 딥 러닝의 필요성을 동기화한다.
- End-to-end로 학습되는 differentiable한 oblivious 의사결정 트리의 앙상블인 NODE를 도입한다.
- 다양한 표 형식 데이터 세트에서 NODE가 선도적인 GBDT 패키지를 능가함을 보인다.
- 엔드투엔드 학습 및 추론 고려사항을 포함한 효율성과 실용성을 입증한다.
제안 방법
- 공유 깊이 분할 특징과 entmax 기반 소프트 결정이 있는 미분 가능 Oblivious 의사결정 트리(ODTs)를 정의한다.
- 공유 피처 선택 행렬 F, 임계값 b, 응답 텐서 R를 갖는 깊이 d인 m개의 ODT의 미분 가능한 앙상블로서 NODE 레이어를 사용한다.
- Heaviside 분할을 미분 가능 엔트맥스(entmax) 기반 결정으로 완화하고 외곱을 사용해 리프 라우팅용 선택 텐서 C를 형성한다.
- 복수의 NODE 레이어를 DenseNet 유사 아키텍처로 쌓아 심층 NODE 모델을 구성하고 모든 트리와 계층에 걸쳐 출력값을 평균화한다.
- quantile 변환으로 데이터 전처리하고 파라미터를 데이터 인식적으로 초기화하며 미니배치 SGD(Quasi-Hyperbolic Adam)로 엔드투엔드 학습하고 체크포인트 평균화를 수행한다.
- 빠른 예측을 위해 희소 entmax 선택자를 미리 계산해 추론 속도 최적화를 제공한다.
실험 결과
연구 질문
- RQ1 differentiable하고 엔드투엔드로 학습 가능한 oblivious 의사결정 앙상블이 표 형식 데이터에서 튜닝된 GBDT 방법을 능가할 수 있는가?
- RQ2NODE 레이어를 쌓는 것이 표 형식 문제의 표현력을 개선하면서 학습/추론 효율을 희생하지 않는가?
- RQ3 entmax가 differentiable 의사결정 트리 내에서 희소하고 효과적인 특징 분할 학습에 어떤 역할을 하는가?
- RQ4NODE 기반 모델은 다양한 표 형식 데이터 세트에서 CatBoost, XGBoost 및 신경망 기반 기준선과 어떻게 비교되는가?
주요 결과
- NODE는 기본 하이퍼파라미터 하에서 여러 데이터셋에서 CatBoost와 XGBoost를 지속적으로 능가한다.
- 조정된 하이퍼파라미터를 사용할 때도 NODE가 대부분의任务에서 경쟁자들을 앞서며, Yahoo와 Microsoft는 때때로 조정된 XGBoost를 선호한다.
- Abalation 연구에서 entmax(α=1.5)가 깊이와 데이터셋에 걸쳐 softmax, Gumbel-Softmax, sparsemax보다 우수한 결과를 낳는다.
- 특징 중요도 분석은 초기 레이어가 더 많은 입력 특징을 제공하는 반면, 더 깊은 레이어가 최종 예측에 더 크게 기여함을 시사한다.
- NODE 기반 메서드는 학습 및 추론 시간 측면에서 경쟁력이 있으며, GPU/CPU 구성에서 최적화된 GBDT 라이브러리와 비슷한 추론 속도를 보인다.
- NODE 기반 방법은 표 형식 데이터에 대해 견고하며 GBDTs에 대한 확장 가능하고 엔드-투-엔드 차별화 가능한 대안을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.