[논문 리뷰] Dynamic and Adaptive Feature Generation with LLM
제안하는 LFG은 전문가 수준의 LLM 에이전트와 Tree of Thoughts를 이용해 기능 공간을 반복적으로 재구성하고 다운스트림 ML 태스크의 성능을 향상시키는 동적이고 해석 가능한 특징 생성 프레임워크이다. 피드백과 Monte Carlo Tree Search를 활용하여 데이터 유형과 작업 전반에 걸쳐 전략을 조정한다.
The representation of feature space is a crucial environment where data points get vectorized and embedded for subsequent modeling. Thus the efficacy of machine learning (ML) algorithms is closely related to the quality of feature engineering. As one of the most important techniques, feature generation transforms raw data into an optimized feature space conducive to model training and further refines the space. Despite the advancements in automated feature engineering and feature generation, current methodologies often suffer from three fundamental issues: lack of explainability, limited applicability, and inflexible strategy. These shortcomings frequently hinder and limit the deployment of ML models across varied scenarios. Our research introduces a novel approach adopting large language models (LLMs) and feature-generating prompts to address these challenges. We propose a dynamic and adaptive feature generation method that enhances the interpretability of the feature generation process. Our approach broadens the applicability across various data types and tasks and offers advantages over strategic flexibility. A broad range of experiments showcases that our approach is significantly superior to existing methods.
연구 동기 및 목표
- 자동 특징 생성에서의 설명가능성 부족 문제를 해결한다.
- 다양한 데이터 유형과 다운스트림 태스크에 대한 적용성을 향상한다.
- LLM 에이전트를 활용한 동적이고 적응 가능한 특징 생성 루프를 도입한다.
- 특징 공간 재구성을 위한 투명하고 엔드-투-엔드 프레임워크를 제공한다.
- 실험을 통해 베이스라인 대비 견고성과 성능 향상을 입증한다.
제안 방법
- 다운스트림 태스크 성능을 극대화하기 위해 특징 공간과 연산 공간을 정의하고 최적화 목표를 설정한다.
- existing features에 단항/이항 연산을 적용하여 새로운 특징을 생성하도록 LLM 에이전트를 사용하고 프롬프트로 안내한다.
- 각 결정에 대해 설명 가능한 생성 단계를 산출하기 위해 Tree of Thoughts (ToT) 추론을 내장한다.
- 다운스트림 태스크 성능으로부터의 피드백을 통합하여 세대 간 에이전트 전략을 개선한다.
- 특징 공간 탐색에서 탐사와 활용의 균형을 맞추기 위해 향상된 Monte Carlo Tree Search (MCTS)을 적용한다.
- 최적의 특징 부분집합이 발견되거나 최대 반복 횟수에 도달할 때까지 반복하고 다운스트림 태스크로 검증한다.
실험 결과
연구 질문
- RQ1LLM 기반 에이전트가 자동 특징 엔지니어링을 위한 투명하고 설명 가능한 특징 생성 단계를 제공할 수 있는가?
- RQ2동적이고 피드백 주도적인 특징 생성이 다양한 데이터 유형과 다운스트림 태스크에 얼마나 잘 적응하는가?
- RQ3전통적인 자동 엔지니어링 방법과 비교하여 LFG로 특징 공간을 확장하는 것이 다운스트림 태스크 성능을 향상시키는가?
- RQ4반복적인 ToT 지향 특징 생성이 모델의 견고성과 수렴성에 미치는 영향은 무엇인가?
- RQ5통합된 MCTS가 고성능 특징 부분집합 발견에 얼마나 효과적인가?
주요 결과
- LFG는 다수의 데이터셋과 분류기에서 일관되게 베이스라인을 능가한다.
- LFG-3(세 번의 반복)는 Ion에서 눈에 띄는 정확도 향상을 달성하고 여러 데이터셋에서 정밀도/재현율/F1을 향상시킨다.
- 이 방법은 다섯 겹 교차 검증에서 견고함을 입증하며 베이스라인 대비 정확도 및 기타 지표의 개선을 보인다.
- 반복적 생성은 특징 세트의 증가와 점진적으로 향상된 다운스트림 성능으로 이어진다.
- MCTS-guided 탐색은 효과적인 특징 부분집합 발견에서 탐색과 활용의 균형을 돕는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.