Skip to main content
QUICK REVIEW

[論文レビュー] One button machine for automating feature engineering in relational databases

Hoang Thanh Lam, Johann-Michael Thiebaut|arXiv (Cornell University)|Jun 1, 2017
Data Mining Algorithms and Applications参考文献 7被引用数 61
ひとこと要約

OneBM はエンティティグラフをたどり、結合データを構造化された特徴量へ変換し、モデリングに選択することで、 relational databases から自動的に特徴量を発見する。Kaggle の競技で prior state-of-the-art methods と比べて競争力があり、場合によっては優れている。

ABSTRACT

Feature engineering is one of the most important and time consuming tasks in predictive analytics projects. It involves understanding domain knowledge and data exploration to discover relevant hand-crafted features from raw data. In this paper, we introduce a system called One Button Machine, or OneBM for short, which automates feature discovery in relational databases. OneBM automatically performs a key activity of data scientists, namely, joining of database tables and applying advanced data transformations to extract useful features from data. We validated OneBM in Kaggle competitions in which OneBM achieved performance as good as top 16% to 24% data scientists in three Kaggle competitions. More importantly, OneBM outperformed the state-of-the-art system in a Kaggle competition in terms of prediction accuracy and ranking on Kaggle leaderboard. The results show that OneBM can be useful for both data scientists and non-experts. It helps data scientists reduce data exploration time allowing them to try and error many ideas in short time. On the other hand, it enables non-experts, who are not familiar with data science, to quickly extract value from their data with a little effort, time and cost.

研究の動機と目的

  • リレーショナルデータベースからの特徴量エンジニアリングを自動化し、手動によるデータ探索と特徴量作成を削減する。
  • 複数の結合テーブルからの多様なデータ型を扱い、非構造化データを含む。
  • ドメイン固有の特徴量のプラグインを可能とする拡張可能なフレームワークを提供する。
  • 実世界の大規模データセットと Kaggle コンペティションでの有効性とスケーラビリティを示す。

提案手法

  • データベーステーブルのエンティティグラフを構築し、ユーザー定義の MaxDepth まで深さ優先パス列挙を行う。
  • 結合パスに沿ってデータを収集し、各エンティティについて結果をリレーショナルツリーとして表現する。
  • パスの性質に基づいて収集データのデータ型を識別し、適切な変換を適用する(数値、カテゴリカル、テキスト、時系列など)。
  • デフォルトの特徴量変換のセットを適用し、ドメイン固有の特徴量のプラグイン拡張を可能にする。
  • データ重複排除とドリフト検出を含む特徴選択を実施し、さらなる改善の余地を残す(NP困難問題)。
  • キャッシュを用いた深さ優先探索、標準形による冗長パスの除去、MAX-JOINED-SIZE に基づく動的サブサンプリングなどの効率化戦略を実装する。

実験結果

リサーチクエスチョン

  • RQ1複数のテーブルと複雑な結合を含むリレーショナルデータベースから特徴量エンジニアリングをどのように自動化できるか?
  • RQ2結合されたリレーショナルデータから抽出された特徴量に適したデータ型と変換は何か、非構造化データを含む。
  • RQ3OneBM は大規模データセットにスケールするか、DSM などの既存システムと比較してどの程度の性能を示すか?
  • RQ4手動の特徴量設計なしで、実際の Kaggle コンペティションでの予測性能をどの程度改善できるか?

主な発見

  • OneBM は Kaggle のデータセットで競争力のあるリーダーボード成績を達成し、いくつかの競技でデータサイエンティストと同等またはそれを上回る。
  • KDD Cup 2014 では、OneBM はチューニングなしで最先端の DSM を上回り、プライベートリーダーボードで上位17%にランクした。
  • Grupo Bimbo の在庫予測タスクで、OneBM は最近の需要や製品タイプなど意味のある特徴を特定し、上位特徴が目的変数と有意な相関を示した。
  • Outbrain のクリック予測実験では 8 テーブルにわたる有用な特徴発見を示し、地理情報や ad_id を含む上位予測子と競争力のあるスコアを得た。
  • OneBM は Spark ベースの実装を用いて大規模データセット(例:100 GB、1億1900万の学習例)にスケールする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。