Skip to main content
QUICK REVIEW

[論文レビュー] TransTab: Learning Transferable Tabular Transformers Across Tables

Zifeng Wang, Jimeng Sun|arXiv (Cornell University)|May 19, 2022
Machine Learning in Healthcare被引用数 37
ひとこと要約

TransTabは、列とセルをトークンとしてエンコードすることにより可変列を持つ表を扱う転送可能な表形式トランスフォーマーを導入し、監視付き・逐次的・転移・ゼロショット学習をテーブル間で可能にし、垂直分割対比事前学習を実現します。

ABSTRACT

Tabular data (or tables) are the most widely used data format in machine learning (ML). However, ML models often assume the table structure keeps fixed in training and testing. Before ML modeling, heavy data cleaning is required to merge disparate tables with different columns. This preprocessing often incurs significant data waste (e.g., removing unmatched columns and samples). How to learn ML models from multiple tables with partially overlapping columns? How to incrementally update ML models as more columns become available over time? Can we leverage model pretraining on multiple distinct tables? How to train an ML model which can predict on an unseen table? To answer all those questions, we propose to relax fixed table structures by introducing a Transferable Tabular Transformer (TransTab) for tables. The goal of TransTab is to convert each sample (a row in the table) to a generalizable embedding vector, and then apply stacked transformers for feature encoding. One methodology insight is combining column description and table cells as the raw input to a gated transformer model. The other insight is to introduce supervised and self-supervised pretraining to improve model performance. We compare TransTab with multiple baseline methods on diverse benchmark datasets and five oncology clinical trial datasets. Overall, TransTab ranks 1.00, 1.00, 1.78 out of 12 methods in supervised learning, feature incremental learning, and transfer learning scenarios, respectively; and the proposed pretraining leads to 2.3% AUC lift on average over the supervised learning.

研究の動機と目的

  • 部分的に重複する列を持つテーブルを結合する際のデータの無駄と非効率を解消する。
  • 固定構造を持たない可変列テーブルに対応するモデルを開発する。
  • テーブル間での転移学習、逐次的な特徴更新、ゼロショット推論を可能にする。
  • 複数のテーブルを活用して表形式の予測を改善する事前学習パラダイムを提案する。

提案手法

  • 列の説明を組み込んだトークンレベルの埋め込みにセルを変換してテーブル入力を特徴化する。
  • 列の垂直分割を用いてスケーラブルな自己教師付き対比学習(VPCL)を可能にする。
  • 頑健な特徴エンコードのためにトークンレベルのゲーティング機構を備えたゲート付きトランスフォーマーレイヤを活用する。
  • 転送可能な表現を学習するために、教師あり損失または対比学習(自己監督VPCLまたは教師ありVPCL)で訓練する。
  • 4つのシナリオをサポートする:転移学習、逐次学習、事前学習+微調整、テーブル間のゼロショット推論。

実験結果

リサーチクエスチョン

  • RQ1部分的に重複する列を持つ複数のテーブルからTransTabは学習できるか。
  • RQ2TransTabはゼロから再訓練せずに列の追加を逐次対応できるか。
  • RQ3垂直列分割にまたがるVPCL事前学習は転移とゼロショット性能をどのように改善するか。
  • RQ4監視付き、転移、およびゼロショット/表形式の事前学習設定でTransTabはベースラインを上回るか。

主な発見

方法N00041119N00174655N00312208N00079274N00694382順位(標準)
TransTab0.64080.94280.77700.72810.76481.00(0.00)
  • TransTabは監視学習および表間転送シナリオの両方で臨床試験死亡データセットにおいて最高性能を達成した(表2–4の上位を占める)。
  • 逐次特徴設定では、利用可能なすべての特徴を活用することでTransTabはベースラインを大幅に上回った。
  • 表間転移実験では、ある表での事前学習と別の表での微調整から恩恵を受け、ベースラインを上回る。
  • ゼロショット実験は、追加の微調整なしで監視付きベースラインと同等または上回り、しばしば転移ベースラインを上回ることを示している。
  • Vertical Partition Contrastive Learning(VPCL)は、標準的な教師あり事前学習および標準的な自己教師付き法に比べ微調整性能を向上させる。
  • 関係のない表形式データでの事前学習は微調整には限られた利益をもたらす一方、VPCLは研究対象データセット全体で一貫した利益を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。