Skip to main content
QUICK REVIEW

[論文レビュー] Maximum Relevance and Minimum Redundancy Feature Selection Methods for a Marketing Machine Learning Platform

Zhenyu Zhao, Radhika Anand|arXiv (Cornell University)|Aug 15, 2019
Machine Learning and Data Classification参考文献 22被引用数 23
ひとこと要約

本論文は、スケーラブルなマーケティング機械学習における特徴量選択のための強化されたmRMR特徴量選択手法—特にFCQ、RFCQ、RFRQ—を提案および評価する。非線形の冗長性(RDC)とモデルベースの関連性(例:ランダムフォレストの重要度)を統合することで、FCQバージョンはAUCと実行時間の両面で他の手法を上回り、高い精度と効率性を達成した。この手法は、ウーバーの自動機械学習プラットフォームに成功裏に導入され、モデルのスケーラビリティを向上させ、ライブのクロスセルキャンペーンにおいて12%のインクリメンタルな採用率向上を実現した。

ABSTRACT

In machine learning applications for online product offerings and marketing strategies, there are often hundreds or thousands of features available to build such models. Feature selection is one essential method in such applications for multiple objectives: improving the prediction accuracy by eliminating irrelevant features, accelerating the model training and prediction speed, reducing the monitoring and maintenance workload for feature data pipeline, and providing better model interpretation and diagnosis capability. However, selecting an optimal feature subset from a large feature space is considered as an NP-complete problem. The mRMR (Minimum Redundancy and Maximum Relevance) feature selection framework solves this problem by selecting the relevant features while controlling for the redundancy within the selected features. This paper describes the approach to extend, evaluate, and implement the mRMR feature selection methods for classification problem in a marketing machine learning platform at Uber that automates creation and deployment of targeting and personalization models at scale. This study first extends the existing mRMR methods by introducing a non-linear feature redundancy measure and a model-based feature relevance measure. Then an extensive empirical evaluation is performed for eight different feature selection methods, using one synthetic dataset and three real-world marketing datasets at Uber to cover different use cases. Based on the empirical results, the selected mRMR method is implemented in production for the marketing machine learning platform. A description of the production implementation is provided and an online experiment deployed through the platform is discussed.

研究の動機と目的

  • 自動機械学習プラットフォームにおける、大規模かつ高次元のマーケティング特徴量空間から最適な特徴量サブセットを選択する課題に対処すること。
  • 非線形の冗長性測定(RDCを用いて)とモデルベースの関連性(例:ランダムフォレストの特徴量重要度)を導入することでmRMRを改善すること。
  • 分類性能と計算効率の両面で、合成データおよび実世界のマーケティングデータセットを用いて複数のmRMRバージョンを評価すること。
  • Scala Sparkを用いてスケーラビリティと低遅延推論を実現するため、最良のパフォーマンスを示した手法(FCQ)を本番環境に実装・最適化すること。
  • ユーザーのクロスセルターゲティングにおけるビジネスインパクトを、オンラインA/B実験を通じて検証すること。

提案手法

  • 特徴量間の複雑な依存関係を線形相関を超えて捉えるために、ランクベースの距離相関(RDC)を用いた非線形冗長性測定を提案する。
  • 訓練済みモデル(例:ランダムフォレスト)の特徴量重要度スコアを用いて、相互情報量の代わりにモデルベースの関連性測定を導入する。
  • mRMRフレームワークを拡張し、3つのバージョンを提案:FCQ(モデルフリー、非線形冗長性)、RFCQ(ランダムフォレストベースの関連性)、RFRQ(ランダムフォレストベースの関連性にRDC冗長性を組み合わせたもの)。
  • 選択された特徴量同士の冗長性を最小化しつつ、ターゲットとの関連性を最大化するグリーディで反復的な選択プロセスを採用する。
  • DataFramesとRDDを活用してパフォーマンスとメモリ効率を向上させることで、FCQ手法をScala Sparkにデプロイし、本番パイプラインを最適化する。
  • 代表性を保ちつつ計算負荷を低減するため、ダウンサンプリング後に特徴量選択を実施する。

実験結果

リサーチクエスチョン

  • RQ1マーケティング分類タスクにおいて、線形相関に代えて非線形冗長性(RDCを用いて)を組み込むことで、特徴量選択のパフォーマンスが向上するか?
  • RQ2実世界のマーケティングデータセットにおいて、mRMRにおける相互情報量と比較して、モデルベースの関連性(例:ランダムフォレストの重要度)はどのように性能を発揮するか?
  • RQ3多様なマーケティングユースケースにおいて、予測性能(AUC)と計算効率の両面で最良のトレードオフを達成するのは、FCQ、RFCQ、RFRQのどのmRMRバージョンか?
  • RQ4FCQ手法は、低遅延要件を満たす自動機械学習プラットフォームで、効果的にスケーリングされ、保守可能か?
  • RQ5本番のマーケティングキャンペーンにおいて、選択された特徴量選択手法が実際のビジネスインパクトをもたらすか?

主な発見

  • FCQバージョンは、複数の分類モデルで安定したパフォーマンスを示し、計算効率が非常に高いため、大規模なデプロイメントに適している。
  • RFCQおよびRFRQバージョンは、ランダムフォレストモデルにおいて最適な結果を達成し、他のモデルに対しても競争力のあるパフォーマンスを示しており、モデルベースの関連性の有効性を裏付けている。
  • FCQ手法は、Scala Sparkを用いてウーバーの本番MLプラットフォームに成功裏に実装され、DataFramesとRDDの最適な使用により実行時間を短縮した。
  • FCQ駆動のモデルを用いたオンライン実験では、上位60%の購買可能性を持つユーザーにおいて、ベースラインと比較して12%のインクリメンタルな新製品採用率向上が確認された(p < 0.05)。
  • 予測された転換確率上位20%のユーザー群では、実際の採用率がベースラインの4倍に達し、モデルの有効性を確認した。
  • 特徴量選択パイプラインにより、モデルの学習および推論の遅延が短縮され、特徴量パイプラインの保守が簡素化され、モデルの解釈性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。