QUICK REVIEW

[論文レビュー] TabICL: A Tabular Foundation Model for In-Context Learning on Large Data

Jingang Qu, David Holzmüller|ArXiv.org|Feb 8, 2025

Anomaly Detection Techniques and Applications被引用数 5

ひとこと要約

TabICL は、2 段階の埋め込みアーキテクチャと最終 ICL トランスフォーマーを備え、大規模な表形式データセット（最大 500K サンプル、500 特徴量）に対する分類の文脈内学習を実行する、スケーラブルな表形式基盤モデルを導入します。従来の TABPFN ベース手法と比べて競争力のある精度を達成し、推論を大幅に高速化します。

ABSTRACT

The long-standing dominance of gradient-boosted decision trees on tabular data is currently challenged by tabular foundation models using In-Context Learning (ICL): setting the training data as context for the test data and predicting in a single forward pass without parameter updates. While TabPFNv2 foundation model excels on tables with up to 10K samples, its alternating column- and row-wise attentions make handling large training sets computationally prohibitive. So, can ICL be effectively scaled and deliver a benefit for larger tables? We introduce TabICL, a tabular foundation model for classification, pretrained on synthetic datasets with up to 60K samples and capable of handling 500K samples on affordable resources. This is enabled by a novel two-stage architecture: a column-then-row attention mechanism to build fixed-dimensional embeddings of rows, followed by a transformer for efficient ICL. Across 200 classification datasets from the TALENT benchmark, TabICL is on par with TabPFNv2 while being systematically faster (up to 10 times), and significantly outperforms all other approaches. On 53 datasets with over 10K samples, TabICL surpasses both TabPFNv2 and CatBoost, demonstrating the potential of ICL for large data. Pretraining code, inference code, and pre-trained models are available at https://github.com/soda-inria/tabicl.

研究の動機と目的

10K サンプルを超える大規模表データセットに対する、スケーラブルな文脈内学習（ICL）の動機付け。
可変サイズの表を ICL に適した固定次元埋め込みへ変換するための、2 段階アーキテクチャの開発。
パラメータ更新なし、重いハイパーパラメータ調整なしで、エンドツーエンドの単一パス予測を実現。
分布認識型特徴埋め込みと集合ベースの置換不変処理によって、表間の転移性を向上。

提案手法

任意のサイズの表から固定サイズの行埋め込みを生成する、列優先→行注意機構の埋め込みを提案。
分布認識型列ごとの特徴埋め込みを捕捉するため、共有 Set Transformer を使用して列統計を表現。
表現崩れを緩和し、特徴間の関係を符号化するため、ロータリーポジションエンコーディングを備えた文脈対応の行間相互作用トランスフォーマーを適用。
ICL ステージでのみ訓練ラベルを使用して、単一の順伝播でテストセットのラベルを予測するため、12 層のトランスフォーマーを用いてデータセット全体に対する ICL を実行。
カリキュラム学習を含む、木構造生成を含む拡張 SCM を用いた合成表データで事前学習。
クラス数が >10 の問題に対処するため階層分類を採用し、FlashAttention とオフロードによるメモリ効率の良い推論を実現。

実験結果

リサーチクエスチョン

RQ1ハイパーパラメータ調整なしで、ICL を大規模な表データセット（数十万サンプル規模まで）に効果的にスケールさせることができるか？
RQ2列-行の二段階埋め込みは、大規模表での効率的かつ正確な文脈内学習を実現するか？
RQ3分布認識型特徴埋め込みと RoPE ベースの行方向相互作用は、表現崩れを緩和し、表間の転移性を向上させるか？
RQ4大規模（>10K サンプル）表データセットにおける TabPFNv2 および CatBoost と比較して TabICL の性能はどうか？
RQ5TabICL は階層分類によって多クラス問題に対処しつつ、規模が大きくなってもメモリ効率を維持できるか？

主な発見

TabICL は 200 TALENT データセットで TabPFNv2 と同等の性能を示し、他のすべての手法を上回り、推論はより高速。
サブセットの 56 データセットで、10K サンプル超のデータに対して TabICL が TabPFNv2 および CatBoost を上回る。
TabICL は一貫して TabPFNv2 より高速であり、大規模データセットで最大 10 倍、小規模データセットで 1.5 倍の速度。
TabICL はデータセットサイズが増大しても高い性能を維持して大規模データの ICL を可能にするが、TabPFNv2 はメモリ使用量のため約 30K サンプルを超えると難しくなる。
200 データセットにわたり、ハイパーパラメータ調整を回避しつつ単一パス予測を可能にし、最先端の精度を提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。