[논문 리뷰] A Closer Look at Deep Learning Methods on Tabular Datasets
대규모 벤치마크를 제공하는 300개 표형 데이터 세트를 비교하여 깊은 표 형식 방법과 트리 기반 방법을 평가하고, 훈련 역학을 분석하며, 효율적인 표 형식 연구를 위한 미니 벤치마크를 도입한다.
Tabular data is prevalent across diverse domains in machine learning. With the rapid progress of deep tabular prediction methods, especially pretrained (foundation) models, there is a growing need to evaluate these methods systematically and to understand their behavior. We present an extensive study on TALENT, a collection of 300+ datasets spanning broad ranges of size, feature composition (numerical/categorical mixes), domains, and output types (binary, multi--class, regression). Our evaluation shows that ensembling benefits both tree-based and neural approaches. Traditional gradient-boosted trees remain very strong baselines, yet recent pretrained tabular models now match or surpass them on many tasks, narrowing--but not eliminating--the historical advantage of tree ensembles. Despite architectural diversity, top performance concentrates within a small subset of models, providing practical guidance for method selection. To explain these outcomes, we quantify dataset heterogeneity by learning from meta-features and early training dynamics to predict later validation behavior. This dynamics-aware analysis indicates that heterogeneity--such as the interplay of categorical and numerical attributes--largely determines which family of methods is favored. Finally, we introduce a two-level design beyond the 300 common-size datasets: a compact TALENT-tiny core (45 datasets) for rapid, reproducible evaluation, and a TALENT-extension suite targeting high-dimensional, many-class, and very large-scale settings for stress testing. In summary, these results offer actionable insights into the strengths, limitations, and future directions for improving deep tabular learning.
연구 동기 및 목표
- 대규모이고 다양한 표 형식 데이터세트 전반에서 최신의 깊은 표 형식 방법과 트리 기반 방법의 성능을 비교 평가한다.
- 깊은 표 형식 모델의 훈련 역학을 분석하고 초기 검증 곡선 및 데이터세트 메타 특징으로 최종 성능을 예측한다.
- 깊은 방법과 트리 기반 방법 중 어느 쪽에 유리한지 데이터세트 특성을 파악하고, 향후 표 형식 연구를 촉진하기 위한 미니 벤치마크를 도출한다.
- 도메인 간 깊은 표 형식 모델의 성공에 영향을 주는 인코딩 전략과 요인에 대한 통찰을 제공한다.
제안 방법
- UCI, OpenML, Kaggle에서 이진 분류, 다중 클래스 분류, 회귀를 포함한 300개 표 형식 데이터세트의 벤치마크를 구축한다.
- 다양한 방법(전통적, 트리 기반 앙상블, 그리고 깊은 표 형식 모델)을 Optuna를 통한 하이퍼파라미터 튜닝으로 100번의 시도와 15개의 시드에 걸쳐 평가한다.
- 훈련 역학(에폭별 손실, 정확도/RMSE)을 기록하고, 데이터세트 메타특성과 초기 곡선 값으로 검증 곡선의 변화를 예측하는 과제를 정의한다.
- 곡선 군(parametric form) 형태 a_theta(t) = A log t + B sqrt(t) + C + D/t 를 제안하고 데이터 특성과 초기 에폭 데이터를 곡선 매개변수로 매핑하는 메타 매핑을 학습한다.
- 집중 분석을 위한 2개의 미니 벤치마크(크기 15%)를 추출하고, 경량 연구를 가능하게 하는 순위 일관된 하위집합을 도출한다.
- 다른 데이터세트 부분집합(트리 친화적 vs DNN 친화적)에서 특징 인코딩 전략(PLE-Q, PLE-T)의 영향을 조사한다.
실험 결과
연구 질문
- RQ1대규모의 다양하고 표 형식 데이터 모음에서 평균 성능 순위로 깊은 표 형식 방법이 트리 기반 방법과 어떻게 비교되는가?
- RQ2깊은 표 형식 모델에서 어떤 훈련 동적 패턴이 나타내며, 초기 검증 곡선이 최종 성능을 예측할 수 있는가?
- RQ3깊은 표 형식 방법의 성공에 영향을 주는 데이터세트 메타 특징은 무엇인가? vs 트리 기반 방법의 차이는 무엇인가?
- RQ4미니 벤치마크가 전체 벤치마크의 순위 경향을 신뢰할 만큼 반영하고, 인코딩 전략 분석에 도움을 줄 수 있는가?
주요 결과
- CatBoost가 대부분의 분류 및 회귀 작업에서 가장 높은 평균 순위를 달성한다.
- 깊은 표 형식 방법들 중에서 TabR이 종종 최고 성능을 보이지만 더 높은 학습 비용이 필요하다.
- 하이퍼파라미터 튜닝은 과제 전반에 걸쳐 많은 방법의 평균 순위를 크게 향상시킨다.
- 깊은 표 형식 방법은 일반적으로 더 크거나 더 복잡한 데이터세트에서 이점을 얻으며, CatBoost는 더 큰 데이터세트에서 탁월하다.
- 초기 곡선 데이터와 데이터세트 메타 특징을 사용한 훈련 역학 예측은 검증 곡선을 정확히 맞추고 조기 중단에 효과적으로 기여할 수 있다.
- 미니 벤치마크는 트리 기반 대 깊은 방법이 뛰어난 서로 다른 영역을 드러내고, 인코딩 전략(PLE)이 트리 친화적 데이터세트에서 더 많은 도움이 될 수 있음을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.