QUICK REVIEW

[논문 리뷰] Feature Engineering for Predictive Modeling using Reinforcement Learning

Udayan Khurana, Horst Samulowitz|arXiv (Cornell University)|2017. 09. 21.

Model-Driven Software Engineering Techniques인용 수 28

한 줄 요약

이 논문은 특성 변환의 체계적인 열거를 가능하게 하는 전환 그래프를 탐색함으로써 강화학습(RL) 기반 프레임워크를 제안한다. 성능 기반 탐색 정책을 학습함으로써, 24개 데이터셋 전반에서 예측 모델링 오차를 중앙값 기준으로 23.8% 감소시켰으며, 확장-감소, 무작위, 히우리스틱 기반 기준선을 모두 능가하면서도 해석 가능하고 조합된 특성을 유지한다.

ABSTRACT

Feature engineering is a crucial step in the process of predictive modeling. It involves the transformation of given feature space, typically using mathematical functions, with the objective of reducing the modeling error for a given target. However, there is no well-defined basis for performing effective feature engineering. It involves domain knowledge, intuition, and most of all, a lengthy process of trial and error. The human attention involved in overseeing this process significantly influences the cost of model generation. We present a new framework to automate feature engineering. It is based on performance driven exploration of a transformation graph, which systematically and compactly enumerates the space of given options. A highly efficient exploration strategy is derived through reinforcement learning on past examples.

연구 동기 및 목표

현재 시행착오와 전문 지식에 의해 지배되는 특성 공학의 체계적이고 자동화된 접근 방식의 부족을 해결하기 위해.
예측 모델링에서 수동 특성 공학의 높은 인적 및 계산 자원 소모를 줄이기 위해.
효율적으로 효과적인 특성 변환을 발견할 수 있는 성능 기반, 예산 제약이 있는 탐색 전략을 개발하기 위해.
모델의 해석 가능성과 성능을 향상시키는 인간이 읽을 수 있고 조합된 특성을 생성하기 위해.

제안 방법

프레임워크는 원본 특성에서 가능한 모든 특성 변환을 인코딩한 전이 그래프—방향 무사이클릭 그래프—를 구축한다.
고정된 예산 내에서 예측 성능을 최대화하기 위해 전이 그래프를 탐색하는 탐색 정책을 강화학습을 통해 학습한다.
역사적 특성 공학 예제를 기반으로 강화학습 에이전트가 효과적인 변환을 위한 일반적인 편향을 학습하며, 데이터 유형에 따라 조건화된 변형도 지원한다.
예를 들어 정규화된 특성의 사인을 계산하는 식으로 변환의 조합을 지원함으로써 복잡하고 의미 있는 특성 공학을 가능하게 한다.
불필요한 특성을 제거하고 모델 효율성을 향상시키기 위해 특성 선택 기능을 통합한다.
탐색 전략은 적응형이며 최대 노드 수(B_max)와 최대 전이 깊이(h_max)에 의해 제약을 받는다.

실험 결과

연구 질문

RQ1강화학습이 예측 모델링에서 특성 변환 공간을 효과적으로 탐색하는 성능 기반 전략을 학습할 수 있는가?
RQ2수동으로 설계된 전략(예: 너비 우선, 깊이 우선, 전역 탐색)과 비교해 RL 기반 탐색 정책이 고성능 특성 집합을 찾는 데 얼마나 효과적인가?
RQ3제안된 방법이 확장-감소, 무작위, 히우리스틱 기반 기준선과 비교해 모델링 오차를 얼마나 줄이는가?
RQ4특성 선택 및 변환의 조합이 최종 모델 성능에 어떤 영향을 미치는가?
RQ5RL 정책이 다양한 데이터셋과 학습 알고리즘 간에 일반화되는가?

주요 결과

제안된 방법은 공개된 24개 데이터셋 전반에서 기준 데이터셋 대비 중앙값 기준 상대 절대 오차를 23.8% 감소시켰다.
RL 기반 탐색 정책은 수동으로 설계된 전략(너비 우선, 깊이 우선, 전역 탐색)보다 최적의 특성 집합을 찾는 데 4~8배 더 효율적이었다.
일반적인 변환 편향을 학습하는 RL1 정책이 데이터 유형에 따라 조건화된 RL2 정책보다 효율성 면에서 뛰어나, 일반화가 탐색 성능을 향상시킨다는 것을 시사한다.
최고의 성능는 일반적으로 전이 깊이 4~5(h_max=4에서 5)에서 달성되었으며, h_max=6일 경우 탐색 비용 증가로 인해 성능가 약간 악화되었다.
특성 선택을 포함함으로써 선택 없이 비교했을 때 성능 향상률이 51% 향상되었으며, 이는 불필요한 특성을 걸러내는 데서의 가치를 입증한다.
24개 데이터셋 중 23개에서 확장-감소 및 Cognito의 전역 탐색과 동등하거나 뛰어난 성능를 기록했으며, 오직 한 경우에서만 확장-감소가 약간 유리했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.