QUICK REVIEW

[논문 리뷰] A Closer Look at Deep Learning Methods on Tabular Datasets

Han-Jia Ye, Siyang Liu|arXiv (Cornell University)|2024. 07. 01.

Handwritten Text Recognition Techniques인용 수 6

한 줄 요약

대규모 벤치마크를 제공하는 300개 표형 데이터 세트를 비교하여 깊은 표 형식 방법과 트리 기반 방법을 평가하고, 훈련 역학을 분석하며, 효율적인 표 형식 연구를 위한 미니 벤치마크를 도입한다.

ABSTRACT

Tabular data is prevalent across diverse domains in machine learning. With the rapid progress of deep tabular prediction methods, especially pretrained (foundation) models, there is a growing need to evaluate these methods systematically and to understand their behavior. We present an extensive study on TALENT, a collection of 300+ datasets spanning broad ranges of size, feature composition (numerical/categorical mixes), domains, and output types (binary, multi--class, regression). Our evaluation shows that ensembling benefits both tree-based and neural approaches. Traditional gradient-boosted trees remain very strong baselines, yet recent pretrained tabular models now match or surpass them on many tasks, narrowing--but not eliminating--the historical advantage of tree ensembles. Despite architectural diversity, top performance concentrates within a small subset of models, providing practical guidance for method selection. To explain these outcomes, we quantify dataset heterogeneity by learning from meta-features and early training dynamics to predict later validation behavior. This dynamics-aware analysis indicates that heterogeneity--such as the interplay of categorical and numerical attributes--largely determines which family of methods is favored. Finally, we introduce a two-level design beyond the 300 common-size datasets: a compact TALENT-tiny core (45 datasets) for rapid, reproducible evaluation, and a TALENT-extension suite targeting high-dimensional, many-class, and very large-scale settings for stress testing. In summary, these results offer actionable insights into the strengths, limitations, and future directions for improving deep tabular learning.

연구 동기 및 목표

대규모이고 다양한 표 형식 데이터세트 전반에서 최신의 깊은 표 형식 방법과 트리 기반 방법의 성능을 비교 평가한다.
깊은 표 형식 모델의 훈련 역학을 분석하고 초기 검증 곡선 및 데이터세트 메타 특징으로 최종 성능을 예측한다.
깊은 방법과 트리 기반 방법 중 어느 쪽에 유리한지 데이터세트 특성을 파악하고, 향후 표 형식 연구를 촉진하기 위한 미니 벤치마크를 도출한다.
도메인 간 깊은 표 형식 모델의 성공에 영향을 주는 인코딩 전략과 요인에 대한 통찰을 제공한다.

제안 방법

UCI, OpenML, Kaggle에서 이진 분류, 다중 클래스 분류, 회귀를 포함한 300개 표 형식 데이터세트의 벤치마크를 구축한다.
다양한 방법(전통적, 트리 기반 앙상블, 그리고 깊은 표 형식 모델)을 Optuna를 통한 하이퍼파라미터 튜닝으로 100번의 시도와 15개의 시드에 걸쳐 평가한다.
훈련 역학(에폭별 손실, 정확도/RMSE)을 기록하고, 데이터세트 메타특성과 초기 곡선 값으로 검증 곡선의 변화를 예측하는 과제를 정의한다.
곡선 군(parametric form) 형태 a_theta(t) = A log t + B sqrt(t) + C + D/t 를 제안하고 데이터 특성과 초기 에폭 데이터를 곡선 매개변수로 매핑하는 메타 매핑을 학습한다.
집중 분석을 위한 2개의 미니 벤치마크(크기 15%)를 추출하고, 경량 연구를 가능하게 하는 순위 일관된 하위집합을 도출한다.
다른 데이터세트 부분집합(트리 친화적 vs DNN 친화적)에서 특징 인코딩 전략(PLE-Q, PLE-T)의 영향을 조사한다.

실험 결과

연구 질문

RQ1대규모의 다양하고 표 형식 데이터 모음에서 평균 성능 순위로 깊은 표 형식 방법이 트리 기반 방법과 어떻게 비교되는가?
RQ2깊은 표 형식 모델에서 어떤 훈련 동적 패턴이 나타내며, 초기 검증 곡선이 최종 성능을 예측할 수 있는가?
RQ3깊은 표 형식 방법의 성공에 영향을 주는 데이터세트 메타 특징은 무엇인가? vs 트리 기반 방법의 차이는 무엇인가?
RQ4미니 벤치마크가 전체 벤치마크의 순위 경향을 신뢰할 만큼 반영하고, 인코딩 전략 분석에 도움을 줄 수 있는가?

주요 결과

CatBoost가 대부분의 분류 및 회귀 작업에서 가장 높은 평균 순위를 달성한다.
깊은 표 형식 방법들 중에서 TabR이 종종 최고 성능을 보이지만 더 높은 학습 비용이 필요하다.
하이퍼파라미터 튜닝은 과제 전반에 걸쳐 많은 방법의 평균 순위를 크게 향상시킨다.
깊은 표 형식 방법은 일반적으로 더 크거나 더 복잡한 데이터세트에서 이점을 얻으며, CatBoost는 더 큰 데이터세트에서 탁월하다.
초기 곡선 데이터와 데이터세트 메타 특징을 사용한 훈련 역학 예측은 검증 곡선을 정확히 맞추고 조기 중단에 효과적으로 기여할 수 있다.
미니 벤치마크는 트리 기반 대 깊은 방법이 뛰어난 서로 다른 영역을 드러내고, 인코딩 전략(PLE)이 트리 친화적 데이터세트에서 더 많은 도움이 될 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.