[論文レビュー] LLM-Select: Feature Selection with Large Language Models
本論文は、大規模言語モデルが特徴量名と予測タスクの記述だけを用いて監督タスクの特徴選択を行い、LASSOのようなデータ駆動型手法と同等の性能を複数のデータセット・プロンプト戦略で達成できることを示している。
In this paper, we demonstrate a surprising capability of large language models (LLMs): given only input feature names and a description of a prediction task, they are capable of selecting the most predictive features, with performance rivaling the standard tools of data science. Remarkably, these models exhibit this capacity across various query mechanisms. For example, we zero-shot prompt an LLM to output a numerical importance score for a feature (e.g., "blood pressure") in predicting an outcome of interest (e.g., "heart failure"), with no additional context. In particular, we find that the latest models, such as GPT-4, can consistently identify the most predictive features regardless of the query mechanism and across various prompting strategies. We illustrate these findings through extensive experiments on real-world data, where we show that LLM-based feature selection consistently achieves strong performance competitive with data-driven methods such as the LASSO, despite never having looked at the downstream training data. Our findings suggest that LLMs may be useful not only for selecting the best features for training but also for deciding which features to collect in the first place. This could benefit practitioners in domains like healthcare and the social sciences, where collecting high-quality data comes at a high cost.
研究の動機と目的
- LLMs が特徴名とターゲットの説明のみを用いて、教師あり学習の有益な特徴を識別できることを実証する。
- 三つの LLM ベースの特徴選択手法を提案し、データセット間で従来のベースラインと比較する。
- 小規模・大規模データセットに対するプロンプト戦略とデコード手法の頑健性を評価する。
- LLM が生成する特徴重要度と標準的な特徴重要度指標との相関を分析する。
提案手法
- プロンプトベースの特徴選択アプローチを三つ提案する:LLM-Score(重要度スコア)、LLM-Rank(ランキング)、LLM-Seq(逐次対話)。
- 概念 c とターゲット c_y を用いて GPT-4、GPT-3.5、Llama-2 にプロンプトを与え、スコア、順位、あるいは対話駆動の選択を取得する。
- 現実世界のデータセットで、下流モデル(ロジスティック回帰/線形回帰、LightGBM、MLP)を用い、異なる特徴サブセットで評価する。
- データ駆動ベースライン(LASSO、LassoNet、MRMR、MI、順方向/後方選択、RFE、ランダム)と比較する。
- ゼロショットプロンプトとデコード戦略(グリーディ法 vs. 自己一貫性)を検証し、プロンプトの変 variationsとモデル規模を分析する。
実験結果
リサーチクエスチョン
- RQ1LLM は、下流のトレーニングデータへアクセスせず、特徴名とタスク説明だけを用いてターゲット結果の最も予測力の高い特徴を識別できるか。
- RQ2三つの prompting 戦略(スコア、ランキング、逐次対話)は、データセット間で特徴選択の有効性にどのような影響を与えるか。
- RQ3モデル規模とプロンプトの変化が特徴選択の性能と安定性に与える影響はどのようか。
- RQ4LLM が生成する特徴重要度スコアは、SHAP、Fisher スコア、相互情報量などの標準的な特徴重要度指標と相関するか。
- RQ5大規模・高次元の実世界データセット(数千の特徴)での LLM ベースの特徴選択は実現可能か。
主な発見
- 規模が十分な LLM(例:GPT-4)は、実世界データにおいて LASSO のようなデータ駆動ベースラインと競合する強力な特徴選択性能を達成する。
- 三つの LLM ベース手法(Score、Rank、Seq)はいずれも類似の高い性能を示し、GPT-4 はいずれのメカニズムにおいても一貫した結果を示す。
- ゼロショットプロンプトとグリーディデコーディングは、より複雑なプロンプトバリエーションと同等かそれを上回ることが多く、強力なベースラインを示す。
- LLM-Score のスコアは、モデル規模の増大とともに標準的な特徴重要度指標との相関が高まるが、いずれか一つの指標が一貫して優位とは言えない。
- 大規模データセット(約3000特徴)では、GPT-4 の LLM-Score は MRMR のようなベースラインに対して依然として競争力があり、ランダム選択よりも優れており、特徴の割合が低い(例:上位10-30%)場合に特に顕著である。
- 結果は医療・医療データセット(MIMIC-IV)や folktables などの分野を横断して一般化されており、データ収集コストが高い領域で実用性が示唆される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。