[논문 리뷰] When Do Neural Nets Outperform Boosted Trees on Tabular Data?
요약: 이 논문은 176개의 표 데이터셋에서 19개 알고리즘의 대규모 비교를 수행하며 NN 대 GBDT 논쟁이 종종 과대평가되고, 간단한 베이스라인이나 GBDT의 가벼운 하이퍼파라미터 튜닝이 많은 데이터셋에서 NN 성능과 비슷하거나 능가할 수 있으며, TabPFN은 작은 데이터셋에서 자주 뛰어나고 반면 GBDTs는 더 큰 데이터셋이나 불규칙한 데이터에서 지배적이다; 저자들은 TabZilla 벤치마크 모음을 공개한다.
Tabular data is one of the most commonly used types of data in machine learning. Despite recent advances in neural nets (NNs) for tabular data, there is still an active discussion on whether or not NNs generally outperform gradient-boosted decision trees (GBDTs) on tabular data, with several recent works arguing either that GBDTs consistently outperform NNs on tabular data, or vice versa. In this work, we take a step back and question the importance of this debate. To this end, we conduct the largest tabular data analysis to date, comparing 19 algorithms across 176 datasets, and we find that the 'NN vs. GBDT' debate is overemphasized: for a surprisingly high number of datasets, either the performance difference between GBDTs and NNs is negligible, or light hyperparameter tuning on a GBDT is more important than choosing between NNs and GBDTs. A remarkable exception is the recently-proposed prior-data fitted network, TabPFN: although it is effectively limited to training sets of size 3000, we find that it outperforms all other algorithms on average, even when randomly sampling 3000 training datapoints. Next, we analyze dozens of metafeatures to determine what properties of a dataset make NNs or GBDTs better-suited to perform well. For example, we find that GBDTs are much better than NNs at handling skewed or heavy-tailed feature distributions and other forms of dataset irregularities. Our insights act as a guide for practitioners to determine which techniques may work best on their dataset. Finally, with the goal of accelerating tabular data research, we release the TabZilla Benchmark Suite: a collection of the 36 'hardest' of the datasets we study. Our benchmark suite, codebase, and all raw results are available at https://github.com/naszilla/tabzilla.
연구 동기 및 목표
- 표 형식 데이터 설정에서 NN vs. GBDT 성능에 대한 강조를 의문시한다.
- 다양한 데이터셋에서 성능 향상이 알고리즘 선택인지 하이퍼파라미터 튜닝인지 평가한다.
- NN 또는 GBDT의 성능이 더 좋은지 예측하는 메타피처(데이터셋 속성)를 식별한다.
- 표 형식 데이터에 대한 방법 선택과 튜닝에 관한 실무적 가이드를 제공한다.
제안 방법
- OpenML 계열의 176개 표 데이터셋에서 19개의 알고리즘(GBDT, NN, TabPFN, 베이스라인)을 평가한다.
- 데이터셋당 최대 30가지 설정의 Optuna를 사용해 하이퍼파라미터를 튜닝하고 실행당 최대 10시간을 소요한다.
- 데이터셋당 10-폴드 교차검증을 사용하고 테스트 정확도와 로그손실을 주지 주요 지표로 보고한다.
- PyMFE를 사용해 965개의 메타피처를 계산해 데이터셋 특성을 분석한다.
- 통계적 유의성을 평가하기 위해 Friedman 및 Wilcoxon 부호 순위 검정과 Holm-Bonferroni 보정을 수행한다.
- 오픈 소스 코드와 결과를 포함한 36개의 도전적인 데이터셋으로 구성된 TabZilla Benchmark Suite를 공개한다.
실험 결과
연구 질문
- RQ1대규모이고 다양한 표 데이터셋에서 알고리즘 계열(GBDT vs. NN)은 서로에 대해 어떻게 성능을 나타내는가?
- RQ2데이터셋의 크기, 불규칙성, 기타 메타피처가 NN 또는 GBDT의 성능 차이를 예측하는가?
- RQ3강력한 모델에서의 단순 베이스라인이나 가벼운 하이퍼파라미터 튜닝이 교차 계열 알고리즘 선택보다 성능 향상을 자주 제공하는가?
- RQ4특정 방법의 성공 또는 실패를 가장 잘 설명하는 데이터셋 속성은 무엇이며, 이는 새로운 데이터셋에 대한 실무적 선택에 어떻게 반영될 수 있는가?
주요 결과
- 176개의 데이터셋에 대해 단일 알고리즘이 지배하지 않는다; CatBoost가 종종 선두를 차지하지만 다른 알고리즘이 이기는 데이터셋도 여전히 존재한다.
- TabPFN은 평균적으로 최상위 성능을 달성하며, 놀랍게도 매우 빠른 학습 시간도 보인다; 작은 데이터셋(≤1250 샘플)에서 TabPFN은 빠른 추론으로 타 대비를 능가할 수 있다.
- 98개의 데이터셋(극단적인 메모리/시간 문제를 제외한 부분집합)에서 TabPFN은 평균적으로 다른 모든 것보다 우수하며 통계적으로 유의하다.
- 강력한 기준모델(예: CatBoost)의 하이퍼파라미터 튜닝은 GBDT와 NN 간의 전환보다 큰 이득을 약 3분의 1의 데이터셋에서 제공한다.
- GBDT는 큰 규모 및 더 불규칙한 데이터셋(예: 두터운 꼬리나 비대칭 피처 분포)에서 NN보다 성능이 우수한 경향이 있다.
- 실무가이드: 간단한 베이스라인으로 시작하고, 그다음 CatBoost의 가벼운 튜닝을 적용하며, 새로운 데이터에 대한 알고리즘 선택에 메타피처를 활용한다.
- TabZilla Benchmark Suite의 36개의 어려운 데이터셋이 표 형식 연구를 가속화하기 위해 공개되며, 코드와 결과가 모두 공개되어 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.