Skip to main content
QUICK REVIEW

[论文解读] Feature Engineering for Predictive Modeling using Reinforcement Learning

Udayan Khurana, Horst Samulowitz|arXiv (Cornell University)|Sep 21, 2017
Model-Driven Software Engineering Techniques被引用 28
一句话总结

本文提出了一种基于强化学习(RL)的框架,通过探索系统性枚举特征变换的变换图,实现自动化特征工程。通过学习以性能为导向的探索策略,该方法在24个数据集上将预测建模误差的中位数相对绝对误差降低了23.8%,优于扩展-缩减、随机和启发式基线方法,同时保持了可解释的、组合式的特征。

ABSTRACT

Feature engineering is a crucial step in the process of predictive modeling. It involves the transformation of given feature space, typically using mathematical functions, with the objective of reducing the modeling error for a given target. However, there is no well-defined basis for performing effective feature engineering. It involves domain knowledge, intuition, and most of all, a lengthy process of trial and error. The human attention involved in overseeing this process significantly influences the cost of model generation. We present a new framework to automate feature engineering. It is based on performance driven exploration of a transformation graph, which systematically and compactly enumerates the space of given options. A highly efficient exploration strategy is derived through reinforcement learning on past examples.

研究动机与目标

  • 为解决当前特征工程缺乏系统化、自动化方法的问题,该问题目前主要依赖试错法和领域专业知识。
  • 降低预测建模中手动特征工程带来的高人力与计算成本。
  • 开发一种以性能为导向、受预算约束的探索策略,以高效发现有效的特征变换。
  • 生成人类可读的、组合式的特征,以增强模型的可解释性与性能。

提出的方法

  • 该框架构建一个变换图——一个有向无环图——编码从原始特征出发的所有可能的特征变换。
  • 利用强化学习学习一种探索策略,以在固定预算下最大化预测性能的方式导航变换图。
  • 强化学习智能体通过历史特征工程示例进行训练,以学习有效变换的一般偏好,其变体根据数据类型进行条件化。
  • 系统支持变换的组合(例如,对归一化特征取正弦值),从而实现复杂且有意义的特征工程。
  • 集成特征选择以剔除无关特征,提升模型效率。
  • 探索策略是自适应的,并受最大节点数(B_max)和最大变换深度(h_max)的约束。

实验结果

研究问题

  • RQ1强化学习能否学习一种在预测建模中有效探索特征变换空间的策略?
  • RQ2与手工设计的策略(如广度优先、深度优先)相比,基于RL的探索策略在寻找高性能特征集方面表现如何?
  • RQ3与扩展-缩减、随机和启发式基线相比,所提方法在降低建模误差方面达到何种程度?
  • RQ4特征选择与变换组合的引入对最终模型性能有何影响?
  • RQ5RL策略是否能在多样化的数据集和学习算法上实现泛化?

主要发现

  • 与基础数据集相比,所提方法在24个公开可用数据集上将中位数相对绝对误差降低了23.8%。
  • 基于RL的探索策略在寻找最优特征集方面,效率是手工策略(广度优先、深度优先、全局策略)的4至8倍。
  • 学习一般变换偏好的RL1策略在效率上优于RL2(基于数据类型条件化的策略),表明泛化能力可提升搜索性能。
  • 最大性能通常在变换深度为4至5时达到(h_max=4至5),而h_max=6导致性能轻微下降,原因在于探索成本增加。
  • 与不进行特征选择相比,引入特征选择使性能增益提高了51%,证明其在过滤无关特征方面的价值。
  • 在24个数据集中有23个数据集上,该方法优于或与扩展-缩减和Cognito的全局搜索持平,仅在1个案例中扩展-缩减策略表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。