Skip to main content
QUICK REVIEW

[論文レビュー] Statsformer: Validated Ensemble Learning with LLM-Derived Semantic Priors

Erica Zhang, Naomi Sagan|arXiv (Cornell University)|Jan 29, 2026
Topic Modeling被引用数 0
ひとこと要約

Statsformer は LLM 由来の意味的事前知識を線形・非線形学習器のアンサンブルへ組み込み、交差検証済みの剪定と共にオラクル風の保証を提供し、事前知識が有益またはノイズ時にもロバストな性能を発揮する。

ABSTRACT

We introduce Statsformer, a principled framework for integrating large language model (LLM)-derived knowledge into supervised statistical learning. Existing approaches are limited in adaptability and scope: they either inject LLM guidance as an unvalidated heuristic, which is sensitive to LLM hallucination, or embed semantic information within a single fixed learner. Statsformer overcomes both limitations through a guardrailed ensemble architecture. We embed LLM-derived feature priors within an ensemble of linear and nonlinear learners, adaptively calibrating their influence via cross-validation. This design yields a flexible system with an oracle-style guarantee that it performs no worse than any convex combination of its in-library base learners, up to statistical error. Empirically, informative priors yield consistent performance improvements, while uninformative or misspecified LLM guidance is automatically downweighted, mitigating the impact of hallucinations across a diverse range of prediction tasks.An open-source implementation of Statsformer is available at https://github.com/pilancilab/statsformer.

研究の動機と目的

  • 大規模言語モデルからの意味的事前知識を、 principled( principled, data-corroborated な方法で supervise learning に統合する動機づけ。
  • LLM priors を monotone adapters を介して diverse base learners に注入するモデル非依存の枠組みを開発する。
  • アンサンブルが基底学習器の任意の凸結合と統計誤差まで競合できる理論的保証を提供する。
  • 高次元・少サンプルの表形式データセットに対して、実用的な有効性と頑健性を示す。

提案手法

  • LLM からの prior prior V を特徴量上の非負ベクトルとして定義する。
  • 各特徴量プリオリティに適用される単調マップ tau_alpha(alpha は有限集合に属す)を介して transformed priors を注入する(重み・スケール・インスタンス重みアダプター)。
  • prior 注入を含む base learners のディクショナリを構築し、prior-free ベースライン(alpha=0, beta=0)を含む。
  • 全てのベース学習器構成についてアウト・オブ・フォールド(OOF)スタッキングを実行し、データ駆動の集約重み pi を単位区間の単体( simplex )で得る。
  • 選択された構成を全データで再適合させ、OOF 由来の重みを用いて凸結合として最終的な Statsformer 予測器を形成する。
  • 三つの具体的な prior 注入のインスタンス化を提供する:ペナルティベース、特徴量再重み付け、インスタンス重み注入。
  • 交差検証リスクを母集団リスクに結び付ける理論的オラクル保証と priors が誤指定された場合の頑健性を提供する。
Figure 1 : Statsformer performance on a variety of datasets, compared to a variety of baseline methods. Note that, due to computational constraints, we only included the AutoML-Agent baseline in Bank Marketing, ETP, and Lung Cancer (see Table 3 in the Appendix for a more detailed computational compa
Figure 1 : Statsformer performance on a variety of datasets, compared to a variety of baseline methods. Note that, due to computational constraints, we only included the AutoML-Agent baseline in Bank Marketing, ETP, and Lung Cancer (see Table 3 in the Appendix for a more detailed computational compa

実験結果

リサーチクエスチョン

  • RQ1LLM 由来の意味的事前知識を principled, validated な方法で supervise learning に組み込むことは可能か。
  • RQ2予測性能を最大化しつつ幻視(hallucination)を抑えるために事前知識の強さと形をどうキャリブレーションすべきか。
  • RQ3validated priors を持つアンサンブルは、統計誤差まで含めて基底学習器の最良凸結合と競合し得るのか。
  • RQ4アプローチはスケール可能でモデル非依存、かつ多様で高次元の表形式データセットに対して頑健か。

主な発見

  • Statsformer は prior-free スタンキングよりも一貫した改善を、特に高次元・少サンプルの領域で多様な表データセットに対して達成する。
  • priors が情報量を持たない場合や反転した場合には、信頼性の低い priors を抑制し prior-free ベースラインへと graceful にデグレードする。
  • オラクル型の保証により、集合予測器は候補学習器の最良凸結合と統計誤差項まで一致することを示す。
  • 複数のデータセットと LLM の選択肢で実験的に有利さを示し、より大きくより能力のある LLM はより強い改善を生む。
  • 対向的なシミュレーションは頑健性を確認: priors を体系的に反転させても性能はベースラインスタッキングへと近づく。
Figure 2 : Direct accuracy and AUROC comparison of Statsformer to Statsformer (no prior) for selected datasets. Gains are noticeable across all four examples, and significant for ETP. See Figure 11 in the Appendix for datasets not shown here.
Figure 2 : Direct accuracy and AUROC comparison of Statsformer to Statsformer (no prior) for selected datasets. Gains are noticeable across all four examples, and significant for ETP. See Figure 11 in the Appendix for datasets not shown here.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。