[논문 리뷰] TransTab: Learning Transferable Tabular Transformers Across Tables
TransTab은 열과 셀을 토큰으로 인코딩하여 가변 열 테이블을 다루는 전이 가능한 표 변환기를 도입합니다. 이를 통해 감독 학습, 점진적 학습, 전이 및 제로샷 학습을 테이블 간에 가능하게 하고, 수직 분할 대조 사전 학습을 수행합니다.
Tabular data (or tables) are the most widely used data format in machine learning (ML). However, ML models often assume the table structure keeps fixed in training and testing. Before ML modeling, heavy data cleaning is required to merge disparate tables with different columns. This preprocessing often incurs significant data waste (e.g., removing unmatched columns and samples). How to learn ML models from multiple tables with partially overlapping columns? How to incrementally update ML models as more columns become available over time? Can we leverage model pretraining on multiple distinct tables? How to train an ML model which can predict on an unseen table? To answer all those questions, we propose to relax fixed table structures by introducing a Transferable Tabular Transformer (TransTab) for tables. The goal of TransTab is to convert each sample (a row in the table) to a generalizable embedding vector, and then apply stacked transformers for feature encoding. One methodology insight is combining column description and table cells as the raw input to a gated transformer model. The other insight is to introduce supervised and self-supervised pretraining to improve model performance. We compare TransTab with multiple baseline methods on diverse benchmark datasets and five oncology clinical trial datasets. Overall, TransTab ranks 1.00, 1.00, 1.78 out of 12 methods in supervised learning, feature incremental learning, and transfer learning scenarios, respectively; and the proposed pretraining leads to 2.3% AUC lift on average over the supervised learning.
연구 동기 및 목표
- 부분적으로 중첩된 열을 가진 테이블 병합 시 발생하는 데이터 낭비 및 비효율성 해결.
- 가 fixed structure 없이 가변 열 테이블에서 작동하는 모델 개발.
- 테이블 간 전이 학습, 점진적 특징 업데이트 및 제로샷 추론 가능.
- 다수의 테이블을 활용한 사전 학습 패러다임 제안으로 표 예측 성능 향상.
제안 방법
- 셀을 열 설명을 포함하는 토큰 수준 임베딩으로 변환하여 표 입력을 특징화합니다.
- 열의 수직 분할을 사용하여 확장 가능한 자기지도 대조 학습(VPCL)을 가능하게 합니다.
- 토큰 수준 게이팅 메커니즘을 갖는 게이트드 트랜스포머 계층을 활용하여 강건한 특징 인코딩을 수행합니다.
- 감독 손실 또는 대조 학습(self-supervised VPCL 또는 supervised VPCL)을 통해 전이 가능한 표현을 학습합니다.
- 네 가지 시나리오를 지원합니다: 전이 학습, 점진적 학습, 사전 학습+미세조정, 그리고 테이블 간 제로샷 추론.
실험 결과
연구 질문
- RQ1부분적으로 중첩된 열을 가진 여러 테이블에서 TransTab이 학습 가능한가요?
- RQ2데이터 재학습 없이 열을 점진적으로 추가하는 것이 가능한가요?
- RQ3수직 열 분할에 걸친 VPCL 사전 학습이 전이 및 제로샷 성능을 향상시키나요?
- RQ4TransTab이 감독, 전이 및 제로샷/표 사전 학습 설정에서 기본 baselines보다 우수한가요?
주요 결과
| Methods | N00041119 | N00174655 | N00312208 | N00079274 | N00694382 | Rank(Std) |
|---|---|---|---|---|---|---|
| TransTab | 0.6408 | 0.9428 | 0.7770 | 0.7281 | 0.7648 | 1.00(0.00) |
- TransTab은 임상시험 사망률 데이터 세트에서 감독 학습 및 테이블 간 전이 시나리오 모두에서 최상위 성능을 달성합니다(표 2–4의 최상위 순위).
- 점진적 특징 설정에서 TransTab은 사용 가능한 모든 특징을 활용하여 기준선을 크게 능가합니다.
- 테이블 간 전이 실험에서 TransTab은 하나의 테이블에서의 사전 학습 후 다른 테이블에서의 미세 조정으로 성능을 향상시키며 기준선을 능가합니다.
- 제로샷 실험에서 TransTab은 감독 기반 대안을 매칭하거나 능가하거나, 추가 미세 조정 없이 종종 전이 기반 대안을 상회합니다.
- 수직 분할 대조 학습(VPCL)은 일반적인 감독 사전 학습보다 미세 조정 성능을 향상시키고 표준 자기지도 방법을 능가합니다.
- 사전 학습이 관련이 없는 표 형식 데이터에 대해서는 미세 조정에 대한 이점이 한정적이지만, VPCL은 연구된 데이터 세트 전반에 일관된 이점을 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.