[論文レビュー] Distribution-Aware End-to-End Embedding for Streaming Numerical Features in Click-Through Rate Prediction
DAESは、リザーバベースの分位推定とフィールド認識モジュレーションを用いて、CTRモデルのストリーミング数値特徴の分布認識エンドツーエンド埋め込みを実現し、従来法より大きな改善を達成、かつ大規模プラットフォームで展開されている。
This paper explores effective numerical feature embedding for Click-Through Rate prediction in streaming environments. Conventional static binning methods rely on offline statistics of numerical distributions; however, this inherently two-stage process often triggers semantic drift during bin boundary updates. While neural embedding methods enable end-to-end learning, they often discard explicit distributional information. Integrating such information end-to-end is challenging because streaming features often violate the i.i.d. assumption, precluding unbiased estimation of the population distribution via the expectation of order statistics. Furthermore, the critical context dependency of numerical distributions is often neglected. To this end, we propose DAES, an end-to-end framework designed to tackle numerical feature embedding in streaming training scenarios by integrating distributional information with an adaptive modulation mechanism. Specifically, we introduce an efficient reservoir-sampling-based distribution estimation method and two field-aware distribution modulation strategies to capture streaming distributions and field-dependent semantics. DAES significantly outperforms existing approaches as demonstrated by extensive offline and online experiments and has been fully deployed on a leading short-video platform with hundreds of millions of daily active users.
研究の動機と目的
- 分布が時間とともに変動するストリーミング設定におけるCTRの数値特徴埋め込みの動機づけ。
- ストリーミングデータに適応しつつ分布情報を保持するエンドツーエンドフレームワークを提案。
- 非独立同分布のストリーミングデータと数値特徴の文脈依存意味を扱う。
- 前処理をモデル訓練に統合してエンジニアリングの複雑さを低減。
- オフラインベンチマークと実世界展開を通じて有効性を示す。
提案手法
- DAESを導入。数値特徴を分布を分位空間でモデル化して埋め込むエンドツーエンドフレームワーク。
- Jump Reservoir Sampling (JRS) を開発し、メモリ制約下でグローバルオンライン分位を効率的に推定。
- 分位空間補間を用いて入力を分布認識座標へ寫像。
- フィールド埋め込みに条件付けたフィールド認識適応分布モジュレーション(ゲーティングまたはアフィン変換)を適用し、文脈特異的重みを生成。
- メタ埋め込みを介して最終的な数値特徴表現を統合。
- 分布認識表現を標準的なCTRアーキテクチャに組み込み、エンドツーエンド訓練を実現。
実験結果
リサーチクエスチョン
- RQ1ストリーミング数値特徴のメモリ制約下で分布情報を効率的に推定するにはどうすればよいか。
- RQ2分位空間エンコードは、ストリーミングCTRにおいて値空間やオフライン統計アプローチより分布特性をより良く保持できるか。
- RQ3セマンティックドリフトを防ぎつつパラメータの複雑さを膨らませず、フィールド文脈をどのように組み込むか。
- RQ4DAESの分布認識埋め込みは、既存の静的・補間・素朴なニューラル埋め込みと比較してCTR性能を改善するか。
主な発見
- DAESは複数のCTRバックボーンとデータセットにおいて、オフライン評価で最新の数値特徴埋め込みを大きく上回る。
- Jump Reservoir Samplingはメモリ制約下のオンライン分位推定に効率的で、整合性が証明されている。
- 分位空間補間とフィールド認識モジュレーションの組み合わせは、値空間やオフライン統計アプローチより分布的・文脈依存意味をより効果的に捉える。
- 二つのフィールド認識モジュレーション戦略(ゲーティングとアフィン変換)は、サブ集団固有の分布への適応性を高める。
- DAESはオンラインでも強力なパフォーマンスを発揮し、日次アクティブユーザー数が数億規模のプラットフォームで公開展開されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。