Skip to main content
QUICK REVIEW

[論文レビュー] DCN-M: Improved Deep & Cross Network for Feature Cross Learning in Web-scale Learning to Rank Systems.

Ruoxi Wang, Rakesh Shivanna|arXiv (Cornell University)|Aug 19, 2020
Advanced Image and Video Retrieval Techniques参考文献 24被引用数 13
ひとこと要約

本稿では、計算コストを維持したまま低ランク混合構造を用いて表現力を向上させることで、Webスケールの学習順序付けシステムにおける特徴量の交差学習を強化する、改良された Deep & Cross Network アーキテクチャである DCN-M を提案する。DCN-M はベンチマークデータセット上で最先端のモデルを上回り、オフラインの精度とオンラインビジネス指標の両面で顕著な向上を達成する。

ABSTRACT

Learning effective feature crosses is the key behind building recommender systems. However, the sparse and large feature space requires exhaustive search to identify effective crosses. Deep & Cross Network (DCN) was proposed to automatically and efficiently learn bounded-degree predictive feature interactions. Unfortunately, in models that serve web-scale traffic with billions of training examples, DCN showed limited expressiveness in its cross network at learning more predictive feature interactions. Despite significant research progress made, many deep learning models in production still rely on traditional feed-forward neural networks to learn feature crosses inefficiently. In light of the pros/cons of DCN and existing feature interaction learning approaches, we propose an improved framework DCN-M to make DCN more practical in large-scale industrial settings. In a comprehensive experimental study with extensive hyper-parameter search and model tuning, we observed that DCN-M approaches outperform all the state-of-the-art algorithms on popular benchmark datasets. The improved DCN-M is more expressive yet remains cost efficient at feature interaction learning, especially when coupled with a mixture of low-rank architecture. DCN-M is simple, can be easily adopted as building blocks, and has delivered significant offline accuracy and online business metrics gains across many web-scale learning to rank systems.

研究の動機と目的

  • 大規模産業的環境下での高次特徴量相互作用を学習する際の、元の DCN の表現力の限界を是正すること。
  • 数百億もの学習例を含む Web スケールの学習順序付けシステムにおける、特徴量相互作用学習の効率性とスケーラビリティを向上させること。
  • 予測性能を顕著に向上させつつ、計算コストを低く保つ実用的でモジュラーなディープラーニングフレームワークを構築すること。
  • DCN におけるアーキテクチャの改善を通じて、多様な Web スケール順序付け応用におけるより良い一般化性能と性能を実現すること。
  • クロスネットワークに低ランク混合設計を導入することで、推論効率を損なわずにモデル容量を効果的に向上させられることを示すこと。

提案手法

  • DCN のクロスネットワーク内に低ランク混合構造を導入し、モデルの表現力を向上させつつ、パラメータの効率性を維持する。
  • 各レイヤーで複数の低ランク変換を許容することで、クロスネットワークを強化し、より豊かな特徴量相互作用モデリングを可能にする。
  • 元の DCN の残差接続とクロス特徴量相互作用メカニズムを維持するが、低ランクパラメータ共有を拡張して適用する。
  • 各特徴量相互作用に対して、複数の低ランクコンポonent を動的に選択・結合するゲーティング機構を採用する。
  • 既存のディープラーニングパイプラインへの容易な統合を想定し、モジュラーかつ実用的なアーキテクチャを設計する。
  • 低ランク混合構造の有効性を検証するため、広範なハイパーパramータチューニングとアブレーションスタディを実施する。

実験結果

リサーチクエスチョン

  • RQ1クロスネットワークに低ランク混合構造を導入することで、計算コストを増加させずに DCN の表現力を顕著に向上させられるか?
  • RQ2標準ベンチマークデータセットにおける予測性能の観点から、DCN-M は最先端のモデルと比較してどのように差をつけるか?
  • RQ3実世界の Web スケール学習順序付けシステムにおいて、DCN-M はオフライン精度とオンラインビジネス指標をどの程度向上させるか?
  • RQ4低ランク混合設計は、スパースで高次元の空間における多様な特徴量相互作用パターンに対して、より優れた一般化性能を実現できるか?
  • RQ5数百億もの学習例を含む産業的システムにデプロイされた際、DCN-M のスケーラビリティと効率性はどの程度か?

主な発見

  • DCN-M は、人気のあるベンチマークデータセットで最先端の性能を達成し、既存のディープラーニングモデルを上回る特徴量相互作用学習性能を示す。
  • 低ランク混合構造は、計算オーバーヘッドを低く保ちながら、モデルの表現力を顕著に向上させる。
  • DCN-M は、複数の Web スケール学習順序付けシステムにおいて、オフライン評価指標とオンラインビジネス KPI の両方で測定可能な改善を達成する。
  • DCN-M は、産業的ディープラーニングパイプラインにおけるモジュラーなコンponentとして、実用的かつ容易にデプロイ可能である。
  • 広範なハイパーパramータチューニングの結果、DCN-M はベースラインモデルに対して一貫して優れた性能を示し、ロバスト性が確認された。
  • DCN-M の向上した表現力により、スパースで大規模な特徴量空間における複雑な高次特徴量相互作用の学習がより効果的に行えるようになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。