Skip to main content
QUICK REVIEW

[논문 리뷰] TabICL: A Tabular Foundation Model for In-Context Learning on Large Data

Jingang Qu, David Holzmüller|ArXiv.org|2025. 02. 08.
Anomaly Detection Techniques and Applications인용 수 5
한 줄 요약

TabICL은 대규모 표(tabular) 데이터 세트(샘플 수 최대 500K, 특징 수 500)에 대해 분류를 위한 in-context learning을 수행하는 확장 가능한 표 기반 기초 모델을 도입하며, 두 단계 임베딩 아키텍처와 최종 ICL 트랜스포머를 갖추고, 경쟁력 있는 정확도와 이전 TABPFN 기반 방식에 비해 현저히 빠른 추론 속도를 달성합니다.

ABSTRACT

The long-standing dominance of gradient-boosted decision trees on tabular data is currently challenged by tabular foundation models using In-Context Learning (ICL): setting the training data as context for the test data and predicting in a single forward pass without parameter updates. While TabPFNv2 foundation model excels on tables with up to 10K samples, its alternating column- and row-wise attentions make handling large training sets computationally prohibitive. So, can ICL be effectively scaled and deliver a benefit for larger tables? We introduce TabICL, a tabular foundation model for classification, pretrained on synthetic datasets with up to 60K samples and capable of handling 500K samples on affordable resources. This is enabled by a novel two-stage architecture: a column-then-row attention mechanism to build fixed-dimensional embeddings of rows, followed by a transformer for efficient ICL. Across 200 classification datasets from the TALENT benchmark, TabICL is on par with TabPFNv2 while being systematically faster (up to 10 times), and significantly outperforms all other approaches. On 53 datasets with over 10K samples, TabICL surpasses both TabPFNv2 and CatBoost, demonstrating the potential of ICL for large data. Pretraining code, inference code, and pre-trained models are available at https://github.com/soda-inria/tabicl.

연구 동기 및 목표

  • 10K 샘플을 초과하는 대규모 표 데이터 세트에 대해 확장 가능한 in-context learning (ICL)을 추진한다.
  • 가변 크기의 표를 ICL에 적합한 고정 차원 임베딩으로 변환하는 2단계 아키텍처를 개발한다.
  • 매개변수 업데이트 없이, 그리고 복잡한 하이퍼파라미터 튜닝 없이 엔드-투-엔드 단일 패스 예측을 가능하게 한다.
  • 분포를 고려한 특징 임베딩과 집합 기반의 순열 불변 처리를 통해 표 간 전이성을 개선한다.

제안 방법

  • 임의 크기의 표에서 고정 크기의 행 임베딩을 생성하기 위해 열-그다음 행 주의(attention) 임베딩을 제안한다.
  • 열 통계를 포착하기 위한 분포 인식형 열별 특징 임베딩을 위해 공유된 Set Transformer를 사용한다.
  • 표현 붕괴를 완화하고 특징 간 관계를 인코딩하기 위해 로터리 위치 인코딩을 갖춘 맥락 인식형 행 기반 상호 작용 트랜스포머를 적용한다.
  • ICL 단계에서만 학습 레이블을 사용하고 테스트 세트 레이블을 단일 순전파로 예측하기 위해 12-층 트랜스포머를 사용한 데이터세트 단위의 ICL를 수행한다.
  • 교육 커리큘럼 학습을 포함한 트리 기반 생성 및 다양한 활성화 함수 등을 포함하는 강화된 SCM을 사용하여 합성적으로 생성된 표 데이터에서 사전 학습한다.
  • >10 클래스인 문제를 다루기 위한 계층적 분류와 FlashAttention 및 오프로딩으로 메모리 효율적인 추론을 사용한다.

실험 결과

연구 질문

  • RQ1ICL을 하이퍼파라미터 튜닝 없이도 수십만 개의 샘플에 이르는 대규모 표 데이터 세트로 효과적으로 확장할 수 있는가?
  • RQ2두 단계의 열-그다음-행 임베딩이 대규모 표에서 효율적이고 정확한 in-context learning을 가능하게 하는가?
  • RQ3분포를 인식하는 특징 임베딩과 RoPE 기반의 행 단위 상호 작용이 표현 붕괴를 완화하고 표 간 전이성을 향상시키는가?
  • RQ4큰 규모(>10K 샘플) 표 데이터 세트에서 TabPFNv2 및 CatBoost에 비해 TabICL의 성능은 어떤가?
  • RQ5TabICL이 계층적 분류를 통해 다중 클래스 문제를 처리하고 대규모에서도 메모리 효율성을 유지할 수 있는가?

주요 결과

  • TabICL은 200 TALENT 데이터세트에서 TabPFNv2와 일치하고 다른 모든 접근 방식보다 우수하며 추론 속도도 더 빠르다.
  • 샘플 수가 10K를 넘는 56개 데이터세트에서 TabICL은 TabPFNv2와 CatBoost를 능가한다.
  • TabICL은 항상 TabPFNv2보다 빠르며(대규모 데이터셋에서 최대 10배, 소규모 데이터셋에서 1.5배).
  • TabICL은 데이터세트 규모가 커져도 강력한 성능을 유지함으로써 대규모 데이터에 대한 ICL을 가능하게 하는 반면, TabPFNv2는 메모리 사용량으로 인해 약 30K 샘플을 넘어서는 경우 어려움을 겪는다.
  • 200개 데이터세트에 걸쳐 TabICL은 하이퍼파라미터 튜닝을 피하면서도 최첨단 정확도를 제공하고 단일 패스 예측을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.