[논문 리뷰] SAINT: Improved Neural Networks for Tabular Data via Row Attention and Contrastive Pre-Training
SAINT는 특징에 대한 자기-주목과 행 간 샘플 간 주의 집중을 대조적 사전 학습과 함께 사용하여 표 형식 데이터에서 전통적 부스팅 방법을 능가합니다. 다양한 벤치마크에서 XGBoost, CatBoost, LightGBM을 종종 능가합니다.
Tabular data underpins numerous high-impact applications of machine learning from fraud detection to genomics and healthcare. Classical approaches to solving tabular problems, such as gradient boosting and random forests, are widely used by practitioners. However, recent deep learning methods have achieved a degree of performance competitive with popular techniques. We devise a hybrid deep learning approach to solving tabular data problems. Our method, SAINT, performs attention over both rows and columns, and it includes an enhanced embedding method. We also study a new contrastive self-supervised pre-training method for use when labels are scarce. SAINT consistently improves performance over previous deep learning methods, and it even outperforms gradient boosting methods, including XGBoost, CatBoost, and LightGBM, on average over a variety of benchmark tasks.
연구 동기 및 목표
- 표 형식 데이터에서 이질적 특징 유형을 다루고 열 순서 정보가 존재하지 않는 문제를 해결하기 위한 신경망 접근 방식의 동기를 제시한다.
- 여러 자기 주의-over-피처와 행 간 샘플 간 주의 집중을 적용하는 트랜스포머 기반 아키텍처 SAINT를 제안한다.
- 부분적으로 지도되지 않는 설정에서 성능을 향상시키기 위한 대조적 자기 감독 사전 학습 체계를 도입한다.
- SAINT가 트리 기반 방법 및 이전의 심층 표 형식 모델들보다 광범위한 벤치마크에서 empirical 향상을 보임을 Demonstrate 한다.
제안 방법
- 연속형 특징과 범주형 특징을 공통의 밀집 임베딩 공간으로 투영한다.
- 자기 주의와 새로운 샘플 간 주의 집중(배치 행 간)을 결합한 트랜스포머 인코더로 임베딩을 처리한다.
- 피처별 학습 가능한 프로젝션을 통해 트랜스포머 처리 전에 연속형 특징을 임베딩한다.
- 하이브리드 목적 함수로 사전 학습을 수행한다: 대조 손실(InfoNCE)과 증강 뷰에서의 복원 손실(CutMix in input space and mixup in embedding space)
- [CLS] 임베딩에서 타깃을 예측하기 위한 MLP를 통해 파인튜닝한다.
- 모델 동작을 해석하기 위한 주의 집중의 ablation 연구 및 시각화를 제공한다.
실험 결과
연구 질문
- RQ1SAINT의 자기 주의와 샘플 간 주의 집중의 조합이 전통적 부스팅 방법을 넘어 표 형식 데이터 모델링을 개선할 수 있는가?
- RQ2대조적 사전 학습이 표 형식 데이터의 반지도 학습 설정에서 이점을 제공하는가?
- RQ3연속형 특징의 임베딩이 이전의 표 형식 트랜스포머 대비 성능에 어떤 영향을 미치는가?
- RQ4샘플 간 주의 집중이 가장 유익한 경우는 언제인가(예: 특징 수가 많거나 레이블이 적은 경우 등)?
주요 결과
- SAINT 변형은 일반적으로 AUROC에서 14개 이진 분류 데이터셋에서 기준 모델을 능가하며, SAINT가 종종 최상위 결과를 달성합니다.
- 평균적으로 SAINT는 전통적 부스팅 방법(XGBoost, LightGBM, CatBoost) 및 다른 심층 표 형식 모델들을 능가합니다.
- 부분적으로 지도된 설정에서 SAINT를 사전 학습하면(자기 주의와 샘플 간 주의 집중을 모두 사용) 특히 적은 표본 데이터에서 최상의 결과를 얻습니다.
- 연속형 특징의 임베딩은 TabTransformer와의 비교에서도 성능을 크게 향상시킵니다.
- 샘플 간 주의 집중은 노이즈에 대한 강건성을 제공하고 특징 수가 많거나 데이터가 부족할 때 도움이 됩니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.