[논문 리뷰] Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation
이 논문은 표 형식 데이터의 특징 변환을 최적화하기 위해 LLM 주도 시연을 진화시키는 데이터 중심의 닫힌 루프 프레임워크를 제안하여, 베이스라인보다 더 나은 성능과 더 안정적인 다운스트림 성능을 얻는다.
Feature Transformation (FT) is a core data-centric AI task that improves feature space quality to advance downstream predictive performance. However, discovering effective transformations remains challenging due to the large space of feature-operator combinations. Existing solutions rely on discrete search or latent generation, but they are frequently limited by sample inefficiency, invalid candidates, and redundant generations with limited coverage. Large Language Models (LLMs) offer strong priors for producing valid transformations, but current LLM-based FT methods typically rely on static demonstrations, resulting in limited diversity, redundant outputs, and weak alignment with downstream objectives. We propose a framework that optimizes context data for LLM-driven FT by evolving trajectory-level experiences in a closed loop. Starting from high-performing feature transportation sequences explored by reinforcement learning, we construct and continuously update an experience library of downstream task-verified transformation trajectories, and use a diversity-aware selector to form contexts along with a chain-of-thought and guide transformed feature generation toward higher performance. Experiments on diverse tabular benchmarks show that our method outperforms classical and LLM-based baselines and is more stable than one-shot generation. The framework generalizes across API-based and open-source LLMs and remains robust across downstream evaluators.
연구 동기 및 목표
- 표 형식 데이터에서 최적의 특징 변환을 통해 다운스트림 예측 성능을 개선한다.
- 작업에 맞춘 시연 학습으로 잘못되거나 불필요한 변환을 줄인다.
- CoT 스타일의 진화하는 소수-shot 맥락을 활용해 LLM이 더 나은 변환으로 유도한다.
- 다양한 LLM 및 평가자에 걸친 방법의 안정성과 전달 가능성을 입증한다.
제안 방법
- 특징 변환을 접미사 시퀀스로 표현하여 탐색 공간을 축소하고 실행 가능성을 보장한다.
- RL을 이용해 성능이 높은 변환 시퀀스를 탐색하고 초기 경험 라이브러리를 구축한다.
- 세 단계의 정제(검증 체크, CoT 궤적 구성, 엔트로피 기반 다양성 선별)로 재사용 가능하고 다양한 시연을 만든다.
- Stage III는 evolving 경험 라이브러리에서 구성된 맥락으로 LLM이 개선된 변환 시퀀스를 생성하도록 안내하고, 결과를 라이브러리에 검증하고 다시 기록한다.
- 고정된 다운스트림 모델과 일관된 지표를 사용해 다양한 표 형식 벤치마크를 평가하고 고전 FT 베이스라인 및 다른 MLLMs 기반 방법과 비교한다.

실험 결과
연구 질문
- RQ1Q1: 데이터 중심의 경험 진화 프레임워크가 표 형식 데이터에서 베이스라인보다 다운스트림 성능을 향상시키는가?
- RQ2Q2: 닫힌 루프 쓰기-back이 한 번의 LLM 생성보다 성능 향상을 가져오는가?
- RQ3Q3: 각 단계(RL 탐색, 정제, 맥락 활용)가 성능에 얼마나 기여하며 CoT 구성은 필수적인가?
- RQ4Q4: 방법이 정책 LLM(API 기반 및 오픈 소스) 간에 전달 가능하고 다운스트림 평가자에 대해 견고한가?
- RQ5Q5: 특징 변환 중 발생하는 비용-성능 트레이드오프와 관찰된 LLM 동작은 무엇인가?
주요 결과
| 데이터세트 | 소스 | 작업 | 샘플 수 | 특징 | 원본 | RDG | PCA | LDA | ERG | AFAT | AutoFeat | NFS | TTG | GRFG | MOAT | OpenFE | CAA FE | FeatLLM | ELLM-FT | 제안 방법 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Amazon Employee | Kaggle | C | 32769 | 9 | 93.37% | 92.31% | 92.29% | 91.64% | 92.43% | 92.97% | 93.29% | 93.21% | 92.79% | 93.02% | 93.13% | 93.44% | 91.41% | 93.62% | 93.17% | 94.41% |
| German Credit | UCIrvine | C | 1000 | 24 | 74.20% | 68.01% | 67.92% | 63.91% | 74.43% | 68.32% | 74.86% | 68.67% | 64.51% | 68.29% | 72.44% | 74.50% | 59.92% | 76.35% | 76.39% | 85.32% |
| Higgs Boson | UCIrvine | C | 50000 | 28 | 69.66% | 67.51% | 53.45% | 51.32% | 69.02% | 69.70% | 67.35% | 69.17% | 68.99% | 69.77% | 69.66% | 61.26% | 70.35% | 69.66% | 72.29% | |
| Ionosphere | UCIrvine | C | 351 | 34 | 93.37% | 91.17% | 92.87% | 65.53% | 92.02% | 92.87% | 93.37% | 91.17% | 90.31% | 93.16% | 95.69% | 93.37% | 96.01% | 97.14% | % | |
| Lymphography | UCIrvine | C | 148 | 18 | 83.19% | 79.36% | 70.38% | 70.38% | 83.73% | 82.38% | 79.26% | 85.25% | 82.38% | 85.51% | 88.38% | 83.73% | 75.00% | 85.24% | 90.54% | 95.07% |
| Messidor Feature | UCIrvine | C | 1151 | 19 | 69.09% | 62.38% | 67.21% | 47.52% | 66.90% | 66.55% | 69.08% | 63.77% | 66.46% | 69.24% | 73.02% | 69.09% | 66.10% | 72.62% | 74.80% | 76.98% |
| PimaIndian | Kaggle | C | 768 | 8 | 80.68% | 76.04% | 63.80% | 63.80% | 76.17% | 76.56% | 80.86% | 74.87% | 74.48% | 75.39% | 80.73% | 80.86% | 79.86% | 89.66% | 89.66% | 93.29% |
| Spam Base | UCIrvine | C | 4601 | 57 | 94.53% | 90.61% | 81.66% | 88.89% | 91.70% | 91.20% | 94.54% | 92.50% | 91.91% | 92.20% | 92.90% | 94.53% | 88.51% | 95.03% | 96.68% | 96.19% |
| SpectF | UCIrvine | C | 267 | 44 | 76.06% | 76.03% | 70.92% | 66.29% | 75.66% | 76.03% | 76.06% | 79.40% | 76.03% | 81.65% | 86.95% | 76.06% | 70.60% | 80.07% | 86.14% | 87.16% |
| SVMGuide3 | LibSVM | C | 1243 | 21 | 81.85% | 78.68% | 67.60% | 65.24% | 82.62% | 79.49% | 83.05% | 79.16% | 79.81% | 81.17% | 81.74% | 81.85% | 75.30% | 82.54% | 82.70% | 87.68% |
| UCI Credit | UCIrvine | C | 30000 | 23 | 79.29% | 80.32% | 73.27% | 74.37% | 80.16% | 80.32% | 79.72% | 80.13% | 79.81% | 80.67% | 80.87% | 80.11% | 76.80% | 76.39% | 79.29% | 80.88% |
| Wine Quality Red | UCIrvine | C | 999 | 11 | 60.95% | 46.65% | 42.21% | 43.31% | 46.10% | 48.05% | 62.52% | 46.21% | 46.71% | 47.01% | 62.10% | 53.71% | 51.74% | 62.65% | 61.11% | 68.59% |
| Wine Quality White | UCIrvine | C | 4898 | 11 | 54.75% | 52.41% | 43.01% | 44.94% | 51.04% | 51.67% | 54.26% | 52.51% | 53.12% | 53.41% | 54.52% | 54.75% | 42.82% | 56.87% | 55.03% | 66.95% |
| Airfoil | UCIrvine | R | 1503 | 5 | 0.5749 | 0.5193 | 0.2730 | 0.2201 | 0.5193 | 0.5210 | 0.5746 | 0.5193 | 0.5003 | 0.5587 | 0.5967 | 0.5746 | N/A | 0.5877 | 0.6174 | 0.7594 |
| Housing Boston | Kaggle | R | 506 | 13 | 0.4148 | 0.4043 | 0.1048 | 0.0201 | 0.4090 | 0.4161 | 0.4149 | 0.4251 | 0.3967 | 0.4043 | 0.4463 | 0.4148 | N/A | 0.4442 | 0.4564 | 0.7295 |
| Openml 586 | OpenML | R | 1000 | 25 | 0.6311 | 0.5681 | 0.1109 | 0.1109 | 0.6147 | 0.5435 | 0.6329 | 0.5443 | 0.5443 | 0.5768 | 0.6251 | 0.6311 | N/A | 0.6477 | 0.6328 | 0.7406 |
| Openml 589 | OpenML | R | 1000 | 25 | 0.5388 | 0.5091 | 0.0112 | 0.0112 | 0.5103 | 0.5087 | 0.5423 | 0.5053 | 0.5032 | 0.5047 | 0.5139 | 0.5388 | N/A | 0.5545 | 0.5836 | 0.6602 |
| Openml 607 | OpenML | R | 1000 | 50 | 0.6207 | 0.5208 | 0.1071 | 0.1071 | 0.5553 | 0.5158 | 0.6191 | 0.5194 | 0.5222 | 0.6021 | 0.6051 | 0.6207 | N/A | 0.5608 | 0.6089 | 0.7408 |
| Openml 616 | OpenML | R | 500 | 50 | 0.3736 | 0.0701 | 0.0242 | 0.0241 | 0.1937 | 0.1489 | 0.3924 | 0.1667 | 0.1567 | 0.3722 | 0.4063 | 0.3736 | N/A | 0.3836 | 0.4082 | 0.5789 |
| Openml 618 | OpenML | R | 1000 | 50 | 0.4402 | 0.3720 | 0.1016 | 0.0521 | 0.3561 | 0.2472 | 0.4407 | 0.3473 | 0.3467 | 0.4562 | 0.4734 | 0.4402 | N/A | 0.4597 | 0.4734 | 0.6546 |
| Openml 620 | OpenML | R | 1000 | 25 | 0.6434 | 0.5111 | 0.1138 | 0.0293 | 0.5466 | 0.5267 | 0.6576 | 0.5130 | 0.5123 | 0.5591 | 0.5722 | 0.6434 | N/A | 0.5725 | 0.6203 | 0.6925 |
| Openml 637 | OpenML | R | 500 | 50 | 0.3162 | 0.1364 | 0.0352 | 0.0433 | 0.1521 | 0.1758 | 0.3251 | 0.1521 | 0.1439 | 0.2071 | 0.2125 | 0.3162 | N/A | 0.2945 | 0.2946 | 0.5471 |
| Openml 616 (duplicate) | OpenML | R | 500 | 50 | 0.3162 | 0.1364 | 0.0352 | 0.0433 | 0.1521 | 0.1758 | 0.3251 | 0.1521 | 0.1439 | 0.2071 | 0.2125 | 0.3162 | N/A | 0.2945 | 0.2946 | 0.5471 |
- 본 방법은 고전 FT 및 다른 LLM 기반 베이스라인에 비해 분류 및 회귀 벤치마크에서 평균 순위가 가장 좋게 나타났다.
- 닻-루프 쓰기-백은 같은 예산 하에서 한 번의 샷 생성보다 더 안정적이고 더 높은 최종 성능을 제공했다.
- 세 단계의 정제는 신뢰성과 커버리지를 크게 향상시키며, CoT 구성과 다양성 제어가 필수적인 이득에 기여했다.
- 정책 LLM(API 기반 및 오픈 소스) 간 전달 가능성이 입증되었으며, 다양한 평가자에서도 견고한 성능을 보였다.
- 분석 결과 초기 RL 경험을 중간 수준으로 증가시키면 초기 커버리지가 개선되고 이후 정제와 쓰기-백이 이득을 주도하며, 엔트로피 기반 선별은 다양성을 높이고 중복을 줄인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.