Skip to main content
QUICK REVIEW

[論文レビュー] Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Xinyuan Wang, Kunpeng Liu|arXiv (Cornell University)|Feb 13, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

この論文は、タブレデータの特徴変換を最適化するためにLLM駆動のデモンストレーションを進化させるデータ中心の閉ループフレームワークを提案し、ベースラインよりも下流の性能を向上させ、より安定させる。

ABSTRACT

Feature Transformation (FT) is a core data-centric AI task that improves feature space quality to advance downstream predictive performance. However, discovering effective transformations remains challenging due to the large space of feature-operator combinations. Existing solutions rely on discrete search or latent generation, but they are frequently limited by sample inefficiency, invalid candidates, and redundant generations with limited coverage. Large Language Models (LLMs) offer strong priors for producing valid transformations, but current LLM-based FT methods typically rely on static demonstrations, resulting in limited diversity, redundant outputs, and weak alignment with downstream objectives. We propose a framework that optimizes context data for LLM-driven FT by evolving trajectory-level experiences in a closed loop. Starting from high-performing feature transportation sequences explored by reinforcement learning, we construct and continuously update an experience library of downstream task-verified transformation trajectories, and use a diversity-aware selector to form contexts along with a chain-of-thought and guide transformed feature generation toward higher performance. Experiments on diverse tabular benchmarks show that our method outperforms classical and LLM-based baselines and is more stable than one-shot generation. The framework generalizes across API-based and open-source LLMs and remains robust across downstream evaluators.

研究の動機と目的

  • 表形式データにおける特徴変換を最適化して下流予測性能を向上させる。
  • タスクに整合したデモンストレーションを学習することで無効な変換・冗長な変換を減らす。
  • CoTスタイルの進化的少数ショット文脈を活用してLLMをより良い変換へ誘導する。
  • LLMと評価者を跨ぐ方法の安定性と転移性を実証する。

提案手法

  • 特徴変換を後置記号列として表現し、探索空間を縮小し実行性を確保する。
  • RLを用いて高性能な変換列を探索し初期の経験ライブラリを構築する。
  • 3段階の精練(検証チェック、CoT軌跡構築、エントロピ-にもとづく多様性選択)により再利用可能で多様なデモを作成する。
  • ステージIIIでは進化する経験ライブラリから構築された文脈を用いてLLMが改善された変換列を生成するよう導き、結果をライブラリに書き戻して検証する。
  • 固定された下流モデルと一貫した評価指標を用いて多様なタブルデータベースで評価し、古典的FTベースラインや他のMLLMベース手法と比較する。
(a) Calls of Search.
(a) Calls of Search.

実験結果

リサーチクエスチョン

  • RQ1Q1: データ中心の経験進化フレームワークは、タブレデータセット上でベースラインより下流性能を改善するか。
  • RQ2Q2: 閉ループ書き戻しはワンショット生成と比べて向上をもたらすか。
  • RQ3Q3: 各段階(RL探索、精練、文脈活用)は性能にどれくらい寄与するか、CoT組織は必須か。
  • RQ4Q4: 方法はポリシーLLM(APIベースおよびオープンソース)間で転移可能かつ下流評価者への耐性を持つか。
  • RQ5Q5: コスト–性能のトレードオフと特徴変換中のLLMの挙動はどう観察されるか。

主な発見

DatasetSourceTaskSamplesFeaturesOriginalRDGPCALDAERGAFATAutoFeatNFSTTGGRFGMOATOpenFECAA FEFeatLLMELLM-FTOurs
Amazon EmployeeKaggleC32769993.37%92.31%92.29%91.64%92.43%92.97%93.29%93.21%92.79%93.02%93.13%93.44%91.41%93.62%93.17%94.41%
German CreditUCIrvineC10002474.20%68.01%67.92%63.91%74.43%68.32%74.86%68.67%64.51%68.29%72.44%74.50%59.92%76.35%76.39%85.32%
Higgs BosonUCIrvineC500002869.66%67.51%53.45%51.32%69.02%69.70%67.35%69.17%68.99%69.77%69.66%61.26%70.35%69.66%72.29%
IonosphereUCIrvineC3513493.37%91.17%92.87%65.53%92.02%92.87%93.37%91.17%90.31%93.16%95.69%93.37%96.01%97.14%%
LymphographyUCIrvineC1481883.19%79.36%70.38%70.38%83.73%82.38%79.26%85.25%82.38%85.51%88.38%83.73%75.00%85.24%90.54%95.07%
Messidor FeatureUCIrvineC11511969.09%62.38%67.21%47.52%66.90%66.55%69.08%63.77%66.46%69.24%73.02%69.09%66.10%72.62%74.80%76.98%
PimaIndianKaggleC768880.68%76.04%63.80%63.80%76.17%76.56%80.86%74.87%74.48%75.39%80.73%80.86%79.86%89.66%89.66%93.29%
Spam BaseUCIrvineC46015794.53%90.61%81.66%88.89%91.70%91.20%94.54%92.50%91.91%92.20%92.90%94.53%88.51%95.03%96.68%96.19%
SpectFUCIrvineC2674476.06%76.03%70.92%66.29%75.66%76.03%76.06%79.40%76.03%81.65%86.95%76.06%70.60%80.07%86.14%87.16%
SVMGuide3LibSVMC12432181.85%78.68%67.60%65.24%82.62%79.49%83.05%79.16%79.81%81.17%81.74%81.85%75.30%82.54%82.70%87.68%
UCI CreditUCIrvineC300002379.29%80.32%73.27%74.37%80.16%80.32%79.72%80.13%79.81%80.67%80.87%80.11%76.80%76.39%79.29%80.88%
Wine Quality RedUCIrvineC9991160.95%46.65%42.21%43.31%46.10%48.05%62.52%46.21%46.71%47.01%62.10%53.71%51.74%62.65%61.11%68.59%
Wine Quality WhiteUCIrvineC48981154.75%52.41%43.01%44.94%51.04%51.67%54.26%52.51%53.12%53.41%54.52%54.75%42.82%56.87%55.03%66.95%
AirfoilUCIrvineR150350.57490.51930.27300.22010.51930.52100.57460.51930.50030.55870.59670.5746N/A0.58770.61740.7594
Housing BostonKaggleR506130.41480.40430.10480.02010.40900.41610.41490.42510.39670.40430.44630.4148N/A0.44420.45640.7295
Openml 586OpenMLR1000250.63110.56810.11090.11090.61470.54350.63290.54430.54430.57680.62510.6311N/A0.64770.63280.7406
Openml 589OpenMLR1000250.53880.50910.01120.01120.51030.50870.54230.50530.50320.50470.51390.5388N/A0.55450.58360.6602
Openml 607OpenMLR1000500.62070.52080.10710.10710.55530.51580.61910.51940.52220.60210.60510.6207N/A0.56080.60890.7408
Openml 616OpenMLR500500.37360.07010.02420.02410.19370.14890.39240.16670.15670.37220.40630.3736N/A0.38360.40820.5789
Openml 618OpenMLR1000500.44020.37200.10160.05210.35610.24720.44070.34730.34670.45620.47340.4402N/A0.45970.47340.6546
Openml 620OpenMLR1000250.64340.51110.11380.02930.54660.52670.65760.51300.51230.55910.57220.6434N/A0.57250.62030.6925
Openml 637OpenMLR500500.31620.13640.03520.04330.15210.17580.32510.15210.14390.20710.21250.3162N/A0.29450.29460.5471
Openml 616 (duplicate)OpenMLR500500.31620.13640.03520.04330.15210.17580.32510.15210.14390.20710.21250.3162N/A0.29450.29460.5471
  • 本手法は古典的なFTおよび他のLLMベースのベースラインと比較して、分類・回帰ベンチマーク全体で最良の平均順位を達成した。
  • 閉ループ書き戻しは、同じ予算内でワンショット生成よりも安定的で高い最終性能を提供する。
  • 3段階の精練は信頼性とカバレッジを大幅に改善し、CoT組織と多様性制御が重要な向上に寄与する。
  • 複数のポリシーLLM(APIベースおよびオープンソース)間の転移性を示し、評価者間で堅牢な性能を発揮する。
  • アブレーションにより、初期RL経験を中程度に増やすと初期のカバレージが向上し、その後は精練と書き戻しが利益を生み出すことが示される。エントロピ-に基づく選択は多様性を高め、冗長性を減らす。
(b) Invalid Ratio.
(b) Invalid Ratio.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。