Skip to main content
QUICK REVIEW

[論文レビュー] Deep & Cross Network for Ad Click Predictions

Ruoxi Wang, Bin Fu|arXiv (Cornell University)|Aug 17, 2017
Machine Learning and Data Classification参考文献 3被引用数 45
ひとこと要約

本稿では、深層ニューラルネットワークと組み合わせた新しいクロスネットワークモジュールを用いて、明示的に有界次数の特徴相互作用を学習するニューラルアーキテクチャ「Deep & Cross Network (DCN)」を提案する。このアーキテクチャは、クリックスルーレート(CTR)予測の分野で、手作業による特徴工学を必要とせず、低いメモリ使用量で最先端の性能を達成しており、DNNや既存のモデルを上回っている。

ABSTRACT

Feature engineering has been the key to the success of many prediction models. However, the process is non-trivial and often requires manual feature engineering or exhaustive searching. DNNs are able to automatically learn feature interactions; however, they generate all the interactions implicitly, and are not necessarily efficient in learning all types of cross features. In this paper, we propose the Deep & Cross Network (DCN) which keeps the benefits of a DNN model, and beyond that, it introduces a novel cross network that is more efficient in learning certain bounded-degree feature interactions. In particular, DCN explicitly applies feature crossing at each layer, requires no manual feature engineering, and adds negligible extra complexity to the DNN model. Our experimental results have demonstrated its superiority over the state-of-art algorithms on the CTR prediction dataset and dense classification dataset, in terms of both model accuracy and memory usage.

研究の動機と目的

  • 大規模広告システムにおけるCTR予測の分野で、手作業でかつ包括的な特徴工学が課す課題に対処すること。
  • 人為的に設計されたクロス特徴に依存せずに、明示的かつ有界次数の特徴相互作用を効率的に学習できるモデルの開発。
  • 表現力に優れた深層ニューラルネットワークと、順次的に高次相互作用を構築する明示的なクロスネットワークを組み合わせること。
  • スパースで高次元のデータセットにおいて、モデルの複雑さとメモリ使用量を低減しつつ、予測精度を維持または向上させること。
  • 提案されたアーキテクチャの有効性を、CTRタスクおよび一般的な密な分類タスクの両方で示すこと。

提案手法

  • Deep & Cross Network (DCN) は、深層ニューラルネットワーク(DNN)と、各層で明示的な特徴クロスを適用する新しいクロスネットワークを統合している。
  • 各クロス層は次数が増加する多項式相互作用を計算し、最大次数はクロスネットワークの深さによって決定される。
  • クロスネットワークは、入力特徴とそのクロス項との間の相互作用を、学習可能な重み行列とバイアスベクトルを用いて計算する。その形式は $ x^{(l)} = x^{(l-1)} ullet W^{(l)} + x^{(0)} ullet V^{(l)} + b^{(l)} $ である。
  • クロスネットワークは、前の層からの低次の相互作用を保持しており、最大次数までのすべてのクロス項を学習可能である。
  • DNNとクロスネットワークの両成分は同時に学習され、モデルはDNNによる暗黙の高次相互作用と、クロスネットワークによる明示的かつ低次・中次の相互作用の両方の利点を享受できる。
  • アーキテクチャは、標準的なDNNに比べて追加パラメータがほとんどないため、メモリ効率が非常に高い。

実験結果

リサーチクエスチョン

  • RQ1手作業による特徴工学を必要とせず、有界次数の特徴相互作用を明示的に学習できるニューラルネットワークアーキテクチャを設計できるか?
  • RQ2明示的な特徴クロスと深層学習を組み合わせることで、CTR予測におけるモデルの精度と効率性が向上するか?
  • RQ3DCNの性能は、DNN や wide-and-deep といった最先端モデルと比較して、logloss とメモリ使用量の観点でどのように異なるか?
  • RQ4クロスネットワーク部は、非CTRタスクや密な分類タスクにも一般化しやすいか?
  • RQ5最良のモデル複雑度と予測性能のトレードオフを達成するための最適なクロス層の数は何か?

主な発見

  • Criteo CTRデータセットにおいて、DCNは250万パラメータで検証logloss 0.4423を達成し、DNN(0.4431)を上回り、誤差を0.0008削減した。
  • 110万パラメータのメモリ予算下でも、DCNはlogloss 0.4426を達成したのに対し、DNNは0.4433であった。これにより、あらゆるメモリ予算において一貫した性能向上が確認された。
  • フォレストカバータイプデータセットでは、DCNはテスト精度0.9740を達成し、最良のDNNおよびDCモデルと同等の性能を示したが、より低いメモリ消費量であった。
  • Higgsデータセットでは、DCNはテストlogloss 0.4494を達成し、DNN(0.4506)を上回った。さらに、最適なDNN設定に比べてメモリ使用量は半分であった。
  • クロス層を追加することで、常にプレーンなDNN(logloss低下0.05–0.28×10⁻²)を上回る性能向上が得られたが、ある深さを超えると性能向上の割合は減少または変動し始めた。
  • クロスネットワークが明示的かつ低次の相互作用を学習できることにより、特に高次元スパースな状況下で、DNNに比べて特徴相互作用の捕捉がより効率的であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。