[論文レビュー] Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction
大規模な疎データに対する CTR 予測のための Large Scale Piece-wise Linear Model (LS-PLM) を導入し、非凸・非滑らか最適化と産業規模のスケーラビリティとスパース性を実現する分散型トレーニングシステムを提案する。
CTR prediction in real-world business is a difficult machine learning problem with large scale nonlinear sparse data. In this paper, we introduce an industrial strength solution with model named Large Scale Piece-wise Linear Model (LS-PLM). We formulate the learning problem with $L_1$ and $L_{2,1}$ regularizers, leading to a non-convex and non-smooth optimization problem. Then, we propose a novel algorithm to solve it efficiently, based on directional derivatives and quasi-Newton method. In addition, we design a distributed system which can run on hundreds of machines parallel and provides us with the industrial scalability. LS-PLM model can capture nonlinear patterns from massive sparse data, saving us from heavy feature engineering jobs. Since 2012, LS-PLM has become the main CTR prediction model in Alibaba's online display advertising system, serving hundreds of millions users every day.
研究の動機と目的
- 大規模な疎データにおけるクリック率予測の非線形で高次元な性質に対処する。
- 特徴空間を領域に分割し、各領域で線形モデルを適合させる区分線形モデルを提案する。
- 非凸・非滑らかな正則化された目的関数を扱うため、方向微分と準ニュートン法のステップを用いた効率的な最適化法を開発する。
- 数百台規模のマシンとオンライン広告ワークロードに適した分散・スケーラブルなトレーニングシステムを設計する。
- 産業界の CTR 設定において伝統的な線形モデルと比較してスパース性と性能の改善を示す。
提案手法
- p(y=1|x)=g( sum_j sigma(u_j^T x) * eta(w_j^T x) ), を用いた混合様相の区分線形モデルを定義し、実用的な共通実装として sigma に softmax、eta に sigmoid を用いる。
- 特徴選択とスパース性を促進するために L2,1 および L1 でモデルを正則化し、非 convex・非滑らかな目的関数へと導く。
- 方向微分を用いて降下方向を決定し( a )、正準直交制約を用いた有限記憶法準ニュートン更新(LBFGS)を適用し( b )、符号/方向制約を持つ射影線探索を課す( c )、非凸・非滑らかな正則化目的関数を扱う最適化アルゴリズムを開発する。
- ワーカーが局所計算を行い、サーバが損失と方向を集約するパラメータサーバー風の分散アーキテクチャを実装し、産業規模データのデータ並列・モデル並列を可能にする。
- ディスプレイ広告における複数サンプル間で共有特徴を活用する共通特徴トリックを適用し、メモリを削減して学習を高速化する。
- 大規模 Alibaba CTR データセットで LS-PLM をロジスティック回帰と評価・比較し、division number、正則化効果、共通特徴最適化を検討する。
実験結果
リサーチクエスチョン
- RQ1重い特徴量エンジニアリングを要さず、領域固有の線形予測子を持つ区分線形モデルは、巨大な疎データにおける非線形 CTR パターンを捉えられるだろうか?
- RQ2LS-PLM における L1 および L2,1 正則化は、スパース性、特徴選択、予測性能にどう影響するか?
- RQ3方向微分ベースの最適化(LBFGS と正直直交制約を用いる)で、産業規模データ上の LS-PLM を効率的に訓練できるか?
- RQ4オンライン広告ワークロードにおける LS-PLM のスケーラビリティと学習効率を、分散トレーニングシステムと共通特徴トリックでいかに改善できるか?
- RQ5LS-PLM を用いた大規模 CTR 予測で、標準的な LR からどの程度の利得が得られるか?
主な発見
- LS-PLM は、特徴空間を m 個の領域に分割し、各領域で線形モデルを適合させることで非線形パターンをモデル化できる。
- L2,1 および L1 での正則化は強いスパース性を生み出し、非ゼロパラメータを大幅に削減しつつ AUC を改善する。
- 共通特徴トリックはメモリ使用量を大幅に削減(約1/3程度)し、特徴次元を変えずに学習を約12倍速くする。
- LS-PLM は seven Alibaba mobile display CTR datasets で一貫して AUC でロジスティック回帰を上回り、著しい精度向上を示す。
- 実験で観察された最良のパラメータは division m=12 および正則化値 beta=1 および lambda=1 で、強いスパース性と高い性能を実現。
- 分散並列実装により、数十億サンプル規模でも数百台のマシンでの訓練が可能となり、産業デプロイに適している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。