[논문 리뷰] Why do tree-based models still outperform deep learning on tabular data?
이 논문은 표 형 데이터에서 트리 기반 모델(예: XGBoost, Random Forest)이 딥 러닝보다 우수하다는 45개 데이터셋에 걸친 대규모 벤치마크를 제시하고, 왜 그런지 설명하기 위해 귀납 편향을 분석한다.
While deep learning has enabled tremendous progress on text and image datasets, its superiority on tabular data is not clear. We contribute extensive benchmarks of standard and novel deep learning methods as well as tree-based models such as XGBoost and Random Forests, across a large number of datasets and hyperparameter combinations. We define a standard set of 45 datasets from varied domains with clear characteristics of tabular data and a benchmarking methodology accounting for both fitting models and finding good hyperparameters. Results show that tree-based models remain state-of-the-art on medium-sized data ($\sim$10K samples) even without accounting for their superior speed. To understand this gap, we conduct an empirical investigation into the differing inductive biases of tree-based models and Neural Networks (NNs). This leads to a series of challenges which should guide researchers aiming to build tabular-specific NNs: 1. be robust to uninformative features, 2. preserve the orientation of the data, and 3. be able to easily learn irregular functions. To stimulate research on tabular architectures, we contribute a standard benchmark and raw data for baselines: every point of a 20 000 compute hours hyperparameter search for each learner.
연구 동기 및 목표
- 신중한 데이터셋 선택과 하이퍼파라미터 튜닝을 포함한 표 형 데이터에 대한 표준화된 벤치마크를 설정한다.
- 다양한 표 형 데이터셋에서 딥 러닝 모델과 트리 기반 모델을 비교한다.
- 재현성 및 예산 인지 비교를 가능하게 하기 위해 원시 벤치마크 결과를 공유한다.
- 표 형 데이터에서 트리 기반 모델에 유리한 귀납 편향을 경험적으로 조사한다.
제안 방법
- 엄격한 포함 기준을 가진 OpenML의 45개 이질적인 표 형 데이터셋을 정의한다.
- 데이터셋당 약 400회의 무작위 탐색 반복을 사용하여 하이퍼파라미터 탐색 분산을 고려하는 벤치마킹 절차를 적용한다.
- 트리 기반 모델(RandomForest, GradientBoosting, XGBoost)과 딥 모델(MLP, ResNet, FT-Transformer, SAINT)을 평가한다.
- 테스트 정확도(분류)와 R2(회귀)로 성능을 측정한다.
- 재사용과 추가 실험을 가능하게 하기 위해 코드와 원시 20,000 컴퓨트-시간 탐색 결과를 공유한다.
실험 결과
연구 질문
- RQ1하이퍼파라미터를 신중하게 조정할 때 트리 기반 모델이 광범위하고 대표적인 표 형 데이터 집합에서 딥 러닝 모델보다 우수한가?
- RQ2표 형 데이터에서 성능 차이를 설명하는 트리 기반 모델과 신경망의 내재적 귀납 편향은 무엇인가?
- RQ3데이터 변환(예: 스무딩, 특징 비정보성, 회전)이 트리 기반 모델과 신경망 간의 차이에 어떤 영향을 미치는가?
- RQ4데이터셋과 예산 전반에 걸쳐 표 학습 방법을 공정하게 비교할 수 있는 표준 벤치마크 방법론이 있는가?
주요 결과
- 트리 기반 모델은 하이퍼파라미터 튜닝을 고려하더라도 중간 규모의 표 형 데이터(약 10K 샘플)에서 여전히 최첨단이다.
- 신경망은 불규칙한 타깃 함수를 학습하는 데 어려움을 겪고 회전 불변성으로 인해 표 형 데이터에서 어려움을 겪는다.
- 비정보성 특징은 MLP 유사 아키텍처에 불균형적으로 영향을 미쳐 트리 기반 모델과의 성능 차이를 벌린다.
- 비정보적 특징을 제거하면 NN의 차이가 줄어들고, 이러한 특징을 추가하면 차이가 벌어진다.
- NN의 회전 불변성은 원래 데이터 방향을 활용하는 것을 저해하며, 불변성을 깨뜨리는 임베딩이 NN 성능을 향상시킬 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.