QUICK REVIEW

[논문 리뷰] Statsformer: Validated Ensemble Learning with LLM-Derived Semantic Priors

Erica Zhang, Naomi Sagan|arXiv (Cornell University)|2026. 01. 29.

Topic Modeling인용 수 0

한 줄 요약

Statsformer는 LLM에서 파생된 의미적 사전을 선형 및 비선형 학습기의 앙상블에 통합하고 교차 검증된 가지치기를 적용하여, 기본 학습자들의 볼록 결합에 비해 오라클 스타일의 보장을 제공하고, 사전 정보가 유익하거나 노이즈가 있어도 견고한 성능을 발휘한다.

ABSTRACT

We introduce Statsformer, a principled framework for integrating large language model (LLM)-derived knowledge into supervised statistical learning. Existing approaches are limited in adaptability and scope: they either inject LLM guidance as an unvalidated heuristic, which is sensitive to LLM hallucination, or embed semantic information within a single fixed learner. Statsformer overcomes both limitations through a guardrailed ensemble architecture. We embed LLM-derived feature priors within an ensemble of linear and nonlinear learners, adaptively calibrating their influence via cross-validation. This design yields a flexible system with an oracle-style guarantee that it performs no worse than any convex combination of its in-library base learners, up to statistical error. Empirically, informative priors yield consistent performance improvements, while uninformative or misspecified LLM guidance is automatically downweighted, mitigating the impact of hallucinations across a diverse range of prediction tasks.An open-source implementation of Statsformer is available at https://github.com/pilancilab/statsformer.

연구 동기 및 목표

대형 언어 모델에서 얻은 의미 사전을 지도 학습에 원리적으로, 데이터로 뒷받침되는 방식으로 통합하는 것을 촉진한다.
단조 모듈(어댑터)을 통해 LLM 사전을 다양한 기본 학습기에 주입하는 모델-무관 프레임워크를 개발한다.
집합이 통계적 오차까지 기본 학습자의 어떤 볼록 결합과도 경쟁한다는 이론적 보장을 제공한다.
고차원, 샘플 수가 적은 표형 데이터셋 전반에서 실용적 효과와 견고성을 입증한다.

제안 방법

LLM으로부터의 사전 프라이어 V를 특징들에 대한 비음수 벡터로 정의한다.
각 특징 사전(가중치, 규모, 또는 인스턴스 가중치 어댑터)에 대해 유한 집합의 알파(alpha)를 갖는 단조 매핑 tau_alpha를 통해 변환된 사전을 주입한다.
사전 주입이 있는 기본 학습기 사전을 구성하되, 사전 없는 기준(alpha=0, beta=0)을 포함한다.
모든 기본 학습자 구성에 대해 폴드 밖 스태킹(OOF)을 수행하여, 단순집합(simplex) 내의 데이터 주도 합성 가중치 pi를 얻는다.
선정된 구성들을 전체 데이터에 재적합하고, OOF에서 도출된 가중치를 사용해 볼록 결합으로 최종 Statsformer 예측기를 형성한다.
세 가지 구체적 사전 주입 인스턴스화를 제공한다: 패널티 기반, 특징 재가중치 부여, 인스턴스 가중치 주입.
교차 검증된 위험과 모집단 위험을 연결하는 이론적 오라클 보장과 잘못 명시된 사전에 대한 강건성을 제시한다.

Figure 1 : Statsformer performance on a variety of datasets, compared to a variety of baseline methods. Note that, due to computational constraints, we only included the AutoML-Agent baseline in Bank Marketing, ETP, and Lung Cancer (see Table 3 in the Appendix for a more detailed computational compa

실험 결과

연구 질문

RQ1LLM에서 도출된 의미 사전을 원리적이고 검증된 방식으로 감독 학습에 통합할 수 있는가?
RQ2환각 현상을 방지하면서 예측 성능을 극대화하기 위해 사전의 강도와 형태를 어떻게 교정해야 하는가?
RQ3검증된 사전을 가진 집합적 앙상블이 통계적 오차까지 포함하여 최상의 기본 학습자 볼록 결합과 경쟁하는가?
RQ4이 접근법이 확장 가능하고 모델에 독립적이며 다양하고 고차원적인 표형 데이터셋에서 견고한가?

주요 결과

Statsformer는 다양한 표형 데이터셋에서 사전 없음 스태킹보다 일관된 향상을 달성하며, 특히 고차원 저샘플 구간에서 두드러진다.
이 프레임워크는 신뢰할 수 없는 사전을 약화시키고 사전이 비정보적이거나 반대로 입력된 경우에도 사전 없는 기준으로 점진적으로 저하된다.
오라클 유형의 보장은 집계 예측기가 후보 학습자의 최상의 볼록 결합과 통계적 오차 항까지 일치함을 보여준다.
실험 결과는 여러 데이터세트와 다양한 LLM 선택에서 이득을 보여주며, 더 크고 더 능력 있는 LLM일수록 더 강한 개선을 얻는 것으로 나타났다.
적대적 시뮬레이션은 견고함을 확인한다: 사전이 체계적으로 반대로 주입될 때 성능이 기본 스태킹에 근접한다.

Figure 2 : Direct accuracy and AUROC comparison of Statsformer to Statsformer (no prior) for selected datasets. Gains are noticeable across all four examples, and significant for ETP. See Figure 11 in the Appendix for datasets not shown here.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.