[論文レビュー] TabLLM: Few-shot Classification of Tabular Data with Large Language Models
TabLLM は、LLMs にゼロショットおよび少数ショットの分類を行わせるために、自然言語プロンプトとしてシリアライズされた表データを使用します。ニューラル表データモデルを上回ることが多く、木構造アンサンブルと競合する場合もあり、特に極めて少数ショット設定で顕著です。
We study the application of large language models to zero-shot and few-shot classification of tabular data. We prompt the large language model with a serialization of the tabular data to a natural-language string, together with a short description of the classification problem. In the few-shot setting, we fine-tune the large language model using some labeled examples. We evaluate several serialization methods including templates, table-to-text models, and large language models. Despite its simplicity, we find that this technique outperforms prior deep-learning-based tabular classification methods on several benchmark datasets. In most cases, even zero-shot classification obtains non-trivial performance, illustrating the method's ability to exploit prior knowledge encoded in large language models. Unlike many deep learning methods for tabular datasets, this approach is also competitive with strong traditional baselines like gradient-boosted trees, especially in the very-few-shot setting.
研究の動機と目的
- 事前学習済みの LLM を活用して事前知識を活用し、データ効率の高い表データ分類を動機づける。
- 表データの異なるテキストシリアライズがゼロショットおよび少数ショットの性能に与える影響を評価する。
- TabLLM を木構造アンサンブルおよびニューラル表データモデルなどの強力なベースラインと比較する。
- 実際の医療請求データでの適用性を示し、ゼロショット予測における特徴の影響を分析する。
提案手法
- TabLLM フレームワークをプロトタイプし、表の行を自然言語文字列にシリアライズする。
- シンプルな値リストからテキストテンプレート、テーブル-to-text パイプラインまで、9 通りのシリアライズ形式を検討する。
- タスクの説明とシリアライズされた行を用いて LLM をプロンプトし、発話者化器(例: Yes/No)を介して LLM の出力をクラストークンへマッピングする。
- k を用いた Few-shot 学習がある場合、T-Few パラメータ効率型ファインチューニング法で LLM を微調整する。
- データセット間で AUC(多クラスの場合は macro-AUC)を用いてゼロショットおよび少数ショットの性能を評価する。
- ロジスティック回帰、XGBoost、LightGBM、TabNet、SAINT、NODE、TABPFN、および GPT-3(ゼロショット)などのベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1LLMs はシリアライズ入力を与えられた場合、表データのゼロショット分類を効果的に行えるか。
- RQ2異なるシリアライズ戦略は、さまざまな表データセットでゼロショットおよび少数ショットの性能にどのような影響を与えるか。
- RQ3LLM のパラメータ効用型ファインチューニングは、ゼロショットと比較して少数ショットの表データ分類を改善するか。
- RQ4TabLLM は少数ショットの状況で、強力な表データのベースライン(木構造アンサンブルやニューラル手法)と比較してどうか。
- RQ5実際の医療請求データでの適用性はどうか、ゼロショットでの予測における特徴情報の影響は?
主な発見
| データセット | 手法 | 0 | 4 | 8 | 16 | 32 | 64 | 128 | 256 | 512 | 全体 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Bank | TabLLM (Text Template) | 0.63 | 0.59 | 0.64 | 0.65 | 0.64 | 0.69 | 0.82 | 0.87 | 0.88 | 0.92 |
| Blood | TabLLM (Text Template) | 0.61 | 0.58 | 0.66 | 0.66 | 0.68 | 0.68 | 0.68 | 0.70 | 0.68 | 0.70 |
| Calhousing | TabLLM (Text Template) | 0.61 | 0.63 | 0.60 | 0.70 | 0.77 | 0.77 | 0.81 | 0.83 | 0.86 | 0.95 |
| Car | TabLLM (Text Template) | 0.82 | 0.83 | 0.85 | 0.86 | 0.91 | 0.96 | 0.98 | 0.99 | 1.00 | 1.00 |
| Credit-g | TabLLM (Text Template) | 0.53 | 0.69 | 0.66 | 0.66 | 0.72 | 0.70 | 0.71 | 0.72 | 0.72 | 0.70 |
| Diabetes | TabLLM (Text Template) | 0.68 | 0.61 | 0.63 | 0.69 | 0.68 | 0.73 | 0.79 | 0.78 | 0.78 | 0.80 |
| Heart | TabLLM (Text Template) | 0.54 | 0.76 | 0.83 | 0.87 | 0.87 | 0.91 | 0.90 | 0.92 | 0.92 | 0.94 |
| Jungle | TabLLM (Text Template) | 0.60 | 0.64 | 0.64 | 0.65 | 0.71 | 0.78 | 0.81 | 0.84 | 0.89 | 1.00 |
- Text Template シリアライズを用いた TabLLM は強力なゼロショット性能を示し、非常に少数ショット設定でいくつかのニューラル表データモデルおよびいくつかのベースラインを上回ることが多い。
- シリアライズ手法の中で、Text Template はゼロショットおよび極めて少数ショットの結果を最もよく得る傾向があり、例が増えると差は縮小する。
- GPT-3(ゼロショット)は競争力があるが、T0 ベースのファインチューニングを用いた TabLLM は非常に少数ショットの領域で多くのベースラインを上回る。
- 多くのデータセットで、TabLLM は約256ショット前後までは勾配強化木(例: XGBoost、LightGBM)と競合し、非常に少数ショット状況では上回ることが多い。TabPFN は様々な設定で強力なベースラインのままである。
- 医療請求データセットでは、List Template シリアライズと頻繁な概念選択が他のシリアライズより良い性能を示す場合があり、TabLLM はゼロ-/少数ショットで競合的な結果を達成する。
- ゼロショット TabLLM はしばしきは特徴名と値との関連性に依存するが、より多くの例が得られると新しい関連性を学習でき、特定のシリアライズへの依存が減少する。
- 公開データセット全体で、TabLLM はゼロ-/少数ショットの条件下で強力なベースラインやニューラルモデルに一般的に勝るか同等であり、データセットごとにばらつきがある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。