QUICK REVIEW

[論文レビュー] Adversarial Validation Approach to Concept Drift Problem in Automated Machine Learning Systems

Jing Pan, Vincent Pham|arXiv (Cornell University)|Apr 7, 2020

Data Stream Mining Techniques被引用数 3

ひとこと要約

本稿では、性能の低下が生じる前に対象ユーザーのターゲティング自動化システムにおけるコンセプトドリフトを検出・適応するための敵対的検証手法を提案する。古きデータ分布と新しいデータ分布を区別できるように訓練された識別器を用いることで、ドリフトを前もって特定し、適切なタイミングでのモデル再訓練を可能にし、新しいデータに対する予測精度を向上させる。本手法は、公開のAutoML3データおよびUberのMaLTAシステムの両方で検証された。

ABSTRACT

In user targeting automation systems, concept drift in input data is one of the main challenges. It deteriorates model performance on new data over time. Previous research on concept drift mostly proposed model retraining after observing performance decreases. However, this approach is suboptimal because the system fixes the problem only after suffering from poor performance on new data. Here, we introduce an adversarial validation approach to concept drift problems in user targeting automation systems. With our approach, the system detects concept drift in new data before making inference, trains a model, and produces predictions adapted to the new data. We show that our approach addresses concept drift effectively with the AutoML3 Lifelong Machine Learning challenge data as well as in Uber's internal user targeting automation system, MaLTA.

研究の動機と目的

データ分布の変化によって時間経過とともに性能が低下するユーザーターゲティング自動化システムにおけるコンセプトドリフトに対処すること。
性能低下の前後に再訓練を行う従来の手法の限界を克服し、性能低下の前に対象ドリフトを検出すること。
新しいデータ分布への適応を早期に可能にするプロアクティブな手法を開発すること。
AutoML3ライフロングマシンラーニングチャレンジおよびUberのMaLTAシステムからの実世界データを用いて、本手法の有効性を検証すること。

提案手法

履歴（古き）データと流入（新しい）データの分布を区別できるように識別器モデルを訓練する。
識別器の信頼度スコアを、新しいデータにおけるコンセプトドリフトの早期指標として使用する。
識別器が顕著な分布シフトを検出すると、モデル再訓練をトリガーする。
検出されたドリフトに適応した分布に基づいて、予測モデルを新しいデータでファインチューニングする。
推論パイプラインに敵対的検証モジュールを統合し、リアルタイムでのドリフト検出を可能にする。
識別器の出力を活用して、データ前処理およびモデル適応戦略をガイドする。

実験結果

リサーチクエスチョン

RQ1敵対的検証は、性能に基づく再訓練トリガーに比べて、コンセプトドリフトを早期に検出できるか？
RQ2敵対的検証アプローチは、新しいデータ分布におけるモデル性能の維持にどの程度効果的か？
RQ3本手法は、MaLTAのような実世界のユーザーターゲティングシステムに成功裏に適用可能か？
RQ4予測精度および遅延の観点から、従来の再訓練戦略と比較して、本手法はどのように差をつけるか？

主な発見

敵対的検証アプローチは、AutoML3チャレンジおよびUberのMaLTAシステムの両方で、性能の低下が生じる前に対象ドリフトを成功裏に検出できた。
本手法により、性能低下の前に対応した再訓練が可能となり、反応的再訓練に比べて新しいデータに対する予測精度が向上した。
識別器が古きデータと新しいデータを区別できる能力が、分布シフトの信頼できる早期警戒信号として機能した。
本手法は、生産規模のユーザーターゲティングシステムを含む実世界の展開環境でも、強固で効果的であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。