Skip to main content
QUICK REVIEW

[論文レビュー] BoostClean: Automated Error Detection and Repair for Machine Learning

Sanjay Krishnan, Michael J. Franklin|arXiv (Cornell University)|Nov 3, 2017
Machine Learning and Data Classification参考文献 41被引用数 58
ひとこと要約

BoostClean は、訓練データおよびテストデータのドメイン値の違反を自動的に検出し、ブースティングを用いて検出器と修復のアンサンブルを選択して下流モデルの精度を向上させ、最大で絶対値で9%の改善と大幅な速度向上を達成します。

ABSTRACT

Predictive models based on machine learning can be highly sensitive to data error. Training data are often combined with a variety of different sources, each susceptible to different types of inconsistencies, and new data streams during prediction time, the model may encounter previously unseen inconsistencies. An important class of such inconsistencies is domain value violations that occur when an attribute value is outside of an allowed domain. We explore automatically detecting and repairing such violations by leveraging the often available clean test labels to determine whether a given detection and repair combination will improve model accuracy. We present BoostClean which automatically selects an ensemble of error detection and repair combinations using statistical boosting. BoostClean selects this ensemble from an extensible library that is pre-populated general detection functions, including a novel detector based on the Word2Vec deep learning model, which detects errors across a diverse set of domains. Our evaluation on a collection of 12 datasets from Kaggle, the UCI repository, real-world data analyses, and production datasets that show that Boost- Clean can increase absolute prediction accuracy by up to 9% over the best non-ensembled alternatives. Our optimizations including parallelism, materialization, and indexing techniques show a 22.2x end-to-end speedup on a 16-core machine.

研究の動機と目的

  • 値が許容されたドメイン外に外れると発生するドメイン値の違反に焦点を当て、MLパイプラインに広く存在する汚れたデータに対処する。
  • Word2Vecベースの検出器を含む検出器と特徴量抽出器のライブラリを使用した汚れたレコードの自動検出。
  • 未見のテストデータで予測精度を最大化するためにブースティングを用いて修復のアンサンブルを自動的に選択。
  • さまざまなデータセットで BoostClean を評価し、精度の向上と実行時間の改善を定量化。
  • 事前に設定された検出器と修復を備えた拡張可能なフレームワークを提供しつつ、ドメイン特有のカスタマイズを可能にする。

提案手法

  • 検出器を、候補となる汚れたレコードを示す述語として表現し、条件付き修復ルールを介して修復へマッピング。
  • 重み付けされたデータ上でテスト精度を最大化する条件付き修復のシーケンスを選択するブースティングベースの手順を使用。
  • クレンジングを特徴量生成として扱い、訓練前に修復を適用し、クリーンなデータで訓練された分類器のブーストエンシブルを使用。
  • Isolation Forest を介して学習された閾値を使用して特徴量化を検出器生成器に変換する IsoDetect を組み込む。
  • 複数属性のエラーパターンをドメイン横断で捉える新規の Word2Vec ベースの検出器を含める。
  • 検出・修復・訓練・デプロイメントの構成要素を備えたエンドツーエンドのワークフローを提供。

実験結果

リサーチクエスチョン

  • RQ1BoostClean は、未知のテストデータで分類器の精度を損なうドメイン値の違反を信頼性高く特定し修復できますか?
  • RQ2非アンサンブルのベースラインと比較して、検出器と修復のアンサンブルをブーストすることで予測性能の向上はどの程度得られますか?
  • RQ3BoostClean の実行時間性能とマルチコアハードウェアでのスケーラビリティはどの程度ですか?
  • RQ4Word2Vec ベースの検出器と IsoDetect ライブラリは広範な設定でどれほど効果的ですか?
  • RQ5事前に準備された検出器/修復ライブラリはデータセット間でどの程度一般化できますか?

主な発見

  • BoostClean は未知のテストデータにおいて、最良の非アンサンブルの代替案より絶対値で最大9%の予測精度向上を達成できます。
  • 並列処理、マテリアリゼーション、インデックス作成などの最適化により、16コア機でのエンドツーエンドの速度アップが22.2倍になります。
  • 拡張可能な検出器/修復ライブラリとブースティングベースの選択が、条件付き修復を効果的に特定し適用します。
  • Word2Vec ベースの検出器は多様なドメインでエラーを検出し、複数のデータセットで手書きのルールと比較して高い検出カバー率を達成します。
  • IsoDetect は特徴量を Isolation Forests を用いた検出器生成器へ efficiently 変換し、スケーラブルな外れ値ベースの検出を可能にします。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。