QUICK REVIEW

[论文解读] Feature Engineering for Predictive Modeling using Reinforcement Learning

Udayan Khurana, Horst Samulowitz|arXiv (Cornell University)|Sep 21, 2017

Model-Driven Software Engineering Techniques被引用 28

一句话总结

本文提出了一种基于强化学习（RL）的框架，通过探索系统性枚举特征变换的变换图，实现自动化特征工程。通过学习以性能为导向的探索策略，该方法在24个数据集上将预测建模误差的中位数相对绝对误差降低了23.8%，优于扩展-缩减、随机和启发式基线方法，同时保持了可解释的、组合式的特征。

ABSTRACT

Feature engineering is a crucial step in the process of predictive modeling. It involves the transformation of given feature space, typically using mathematical functions, with the objective of reducing the modeling error for a given target. However, there is no well-defined basis for performing effective feature engineering. It involves domain knowledge, intuition, and most of all, a lengthy process of trial and error. The human attention involved in overseeing this process significantly influences the cost of model generation. We present a new framework to automate feature engineering. It is based on performance driven exploration of a transformation graph, which systematically and compactly enumerates the space of given options. A highly efficient exploration strategy is derived through reinforcement learning on past examples.

研究动机与目标

为解决当前特征工程缺乏系统化、自动化方法的问题，该问题目前主要依赖试错法和领域专业知识。
降低预测建模中手动特征工程带来的高人力与计算成本。
开发一种以性能为导向、受预算约束的探索策略，以高效发现有效的特征变换。
生成人类可读的、组合式的特征，以增强模型的可解释性与性能。

提出的方法

该框架构建一个变换图——一个有向无环图——编码从原始特征出发的所有可能的特征变换。
利用强化学习学习一种探索策略，以在固定预算下最大化预测性能的方式导航变换图。
强化学习智能体通过历史特征工程示例进行训练，以学习有效变换的一般偏好，其变体根据数据类型进行条件化。
系统支持变换的组合（例如，对归一化特征取正弦值），从而实现复杂且有意义的特征工程。
集成特征选择以剔除无关特征，提升模型效率。
探索策略是自适应的，并受最大节点数（B_max）和最大变换深度（h_max）的约束。

实验结果

研究问题

RQ1强化学习能否学习一种在预测建模中有效探索特征变换空间的策略？
RQ2与手工设计的策略（如广度优先、深度优先）相比，基于RL的探索策略在寻找高性能特征集方面表现如何？
RQ3与扩展-缩减、随机和启发式基线相比，所提方法在降低建模误差方面达到何种程度？
RQ4特征选择与变换组合的引入对最终模型性能有何影响？
RQ5RL策略是否能在多样化的数据集和学习算法上实现泛化？

主要发现

与基础数据集相比，所提方法在24个公开可用数据集上将中位数相对绝对误差降低了23.8%。
基于RL的探索策略在寻找最优特征集方面，效率是手工策略（广度优先、深度优先、全局策略）的4至8倍。
学习一般变换偏好的RL1策略在效率上优于RL2（基于数据类型条件化的策略），表明泛化能力可提升搜索性能。
最大性能通常在变换深度为4至5时达到（h_max=4至5），而h_max=6导致性能轻微下降，原因在于探索成本增加。
与不进行特征选择相比，引入特征选择使性能增益提高了51%，证明其在过滤无关特征方面的价值。
在24个数据集中有23个数据集上，该方法优于或与扩展-缩减和Cognito的全局搜索持平，仅在1个案例中扩展-缩减策略表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。