QUICK REVIEW

[논문 리뷰] TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second

Noah Hollmann, Samuel Müller|arXiv (Cornell University)|2022. 07. 05.

Machine Learning and Data Classification인용 수 94

한 줄 요약

TabPFN은 사전 학습된 Transformer로, 하이퍼파라미터 튜닝 없이도 작은 표 형식 데이터 분류를 1초 이내에 수행하며, 컨텍스트 학습을 통해 베이지안 사후 예측 분포를 근사하여 숫자 데이터셋에서 최첨단 AutoML 성능과 일치한다.

ABSTRACT

We present TabPFN, a trained Transformer that can do supervised classification for small tabular datasets in less than a second, needs no hyperparameter tuning and is competitive with state-of-the-art classification methods. TabPFN performs in-context learning (ICL), it learns to make predictions using sequences of labeled examples (x, f(x)) given in the input, without requiring further parameter updates. TabPFN is fully entailed in the weights of our network, which accepts training and test samples as a set-valued input and yields predictions for the entire test set in a single forward pass. TabPFN is a Prior-Data Fitted Network (PFN) and is trained offline once, to approximate Bayesian inference on synthetic datasets drawn from our prior. This prior incorporates ideas from causal reasoning: It entails a large space of structural causal models with a preference for simple structures. On the 18 datasets in the OpenML-CC18 suite that contain up to 1 000 training data points, up to 100 purely numerical features without missing values, and up to 10 classes, we show that our method clearly outperforms boosted trees and performs on par with complex state-of-the-art AutoML systems with up to 230$ imes$ speedup. This increases to a 5 700$ imes$ speedup when using a GPU. We also validate these results on an additional 67 small numerical datasets from OpenML. We provide all our code, the trained TabPFN, an interactive browser demo and a Colab notebook at https://github.com/automl/TabPFN.

연구 동기 및 목표

단일 사전 학습된 Transformer가 데이터셋별 튜닝 없이도 작은 표 형식 분류 작업을 1초 이내에 해결할 수 있음을 입증한다.
표 형식 데이터에 대한 사전(distribution)을 가정하고 베이지안 추론을 근사하도록 오프라인으로 학습된 Prior-Data Fitted Network (PFN)을 개발한다.
표 형식 데이터의 다양한 생성 메커니즘을 모델링하기 위해 인과성 인식 우선분포(SCMs 및 BNNs)를 포함하여 우선분 distributions를 도입한다.
TabPFN이 부스팅 트리를 능가하고 OpenML-CC18 수치 데이터셋에서 AutoML 시스템과 경쟁적임을 보여준다.
복제 및 커뮤니티 검증을 가능하게 하기 위해 오픈 소스 코드, 사전 학습된 TabPFN 및 데모를 제공한다.

제안 방법

새로운 표 형태의 우선분포 하에서 사후 예측 분포를 근사하기 위해 PFN으로 12-층 Transformer를 훈련시킨다.
단순하고 인과적이며 다양한 데이터 생성 프로세스를 모델링하기 위해 Structural Causal Models (SCMs)과 Bayesian Neural Networks (BNNs)의 혼합으로 우선분포를 구성한다.
우선분포에서 생성된 합성 데이터셋에 대해 오프라인으로 학습하여 보류된 합성 포인트에서 교차 엔트로피를 최소화하고 한 번의 온라인 예측을 달성한다.
추론 시 학습 데이터셋과 테스트 특징을 집합 값 입력으로 먹여 단일 순전파로 PPD 예측을 얻는다.
가변 길이 학습 데이터 및 테스트 샘플에 대해 순열 불변 처리를 가능하게 하고, 서로 다른 특징 수를 수용하기 위해 제로 패딩을 적용한다.
안정성을 높이기 위해 데이터 변환을 사용한 32회의 순전파를 선택적으로 앙상블한다.

실험 결과

연구 질문

RQ1단일 사전 학습된 Transformer가 데이터셋별 튜닝 없이도 소형 표 형식 데이터 집합에 대해 베이지안 스타일의 사후 예측 추론을 학습할 수 있는가?
RQ2SCMs과 BNNs에 기초한 우선분포가 더 단순하고 인과적 설명을 촉진하며 작은 표 형식 데이터의 예측 성능을 향상시키는가?
RQ3엄격하게 작은 수치 표 데이터 세트에서 정확도와 속도 측면에서 TabPFN과 부스팅 트리 및 AutoML 시스템의 비교는 어떠한가?
RQ4범주형 특징과 누락 값에 관한 TabPFN의 한계는 무엇이며, 앙상블이나 우선분포 조정으로 이를 완화할 수 있는가?

주요 결과

TabPFN은 OpenML-CC18 수치 데이터셋에서 학습 포인트 최대 1,000개, 수치 특징 100개까지의 조건에서 최첨단 AutoML 시스템과 경쟁력 있는 정확도를 달성하며, 데이터셋당 1초 이내에 처리한다.
TabPFN은 CPU 기반 AutoML 파이프라인에 비해 상당한 속도 향상을 제공하며(약 230배), 소형 데이터셋 예측에서는 GPU 기반으로 최대 약 5,700배의 속도 향상을 달성한다.
이 방법은 대체로 범주형 특징이나 누락 값이 있는 데이터셋에서 더 부진하지만, TabPFN을 다른 방법과 앙상블하면 추가 이점을 얻을 수 있다.
TabPFN은 간단하고 인과적 설명에 대한 귀납적 편향의 이점을 누리며, 예측의 질적 분석 및 견고성 확인에서 이를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.