[论文解读] One button machine for automating feature engineering in relational databases
OneBM 自动通过遍历实体图来从关系数据库中发现特征,将连接的数据转换为结构化特征,并选择用于建模,在 Kaggle 竞赛中与现有最先进方法相比,表现具有竞争力,在某些情况下甚至更优。
Feature engineering is one of the most important and time consuming tasks in predictive analytics projects. It involves understanding domain knowledge and data exploration to discover relevant hand-crafted features from raw data. In this paper, we introduce a system called One Button Machine, or OneBM for short, which automates feature discovery in relational databases. OneBM automatically performs a key activity of data scientists, namely, joining of database tables and applying advanced data transformations to extract useful features from data. We validated OneBM in Kaggle competitions in which OneBM achieved performance as good as top 16% to 24% data scientists in three Kaggle competitions. More importantly, OneBM outperformed the state-of-the-art system in a Kaggle competition in terms of prediction accuracy and ranking on Kaggle leaderboard. The results show that OneBM can be useful for both data scientists and non-experts. It helps data scientists reduce data exploration time allowing them to try and error many ideas in short time. On the other hand, it enables non-experts, who are not familiar with data science, to quickly extract value from their data with a little effort, time and cost.
研究动机与目标
- 实现来自关系数据库的特征工程自动化,以减少人工数据探索和特征设计的工作。
- 处理来自多个连接表的多种数据类型,包括非结构化数据。
- 提供一个可扩展的框架,特征提取器可以插入以实现领域特定特征。
- 在大型真实数据集和 Kaggle 竞赛中展示有效性与可扩展性。
提出的方法
- 构建数据库表的实体图并执行深度优先路径枚举,直到用户定义的 MaxDepth。
- 沿连接路径收集数据,并将结果表示为每个实体的关系树。
- 根据路径属性识别收集数据的数据类型,并应用相应的转换(数值、类别、文本、时间序列等)。
- 应用一组默认的特征变换,并允许插入扩展以实现领域特定的特征。
- 执行特征选择,包括去重和漂移检测,仍有进一步改进的空间(NP-hard 问题)。
- 实现提高效率的策略,包括带缓存的深度优先遍历、通过规范路径形式去除冗余路径,以及基于 MAX-JOINED-SIZE 的动态子采样。
实验结果
研究问题
- RQ1如何在具有多张表和复杂连接的关系数据库中实现特征工程的自动化?
- RQ2从连接的关系数据中提取的特征适用哪些数据类型和转换,包括非结构化数据?
- RQ3OneBM 是否能够扩展到大型数据集,与现有系统如 DSM 相比的性能如何?
- RQ4在真实 Kaggle 竞赛中,在不进行手工特征工程的情况下,OneBM 能在多大程度上提升预测性能?
主要发现
- OneBM 在 Kaggle 数据集上实现了具有竞争力的排行榜表现,在若干比赛中达到或超过数据科学家。
- 在 KDD Cup 2014 中,OneBM 在未调优的情况下超越了最先进的 DSM,并在私有排行榜上名列前17%。
- 在 Grupo Bimbo 库存预测任务中,OneBM 识别出有意义的特征,如最近需求和产品类型,top 特征与目标变量具有显著相关性。
- Outbrain 点击预测实验展示了跨 8 张表的有用特征发现,并获得具有竞争力的分数,顶级预测因子包括地理位置和 ad_id。
- OneBM 使用基于 Spark 的实现即可扩展到大型数据集(例如 100 GB,119 million training examples)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。