[論文レビュー] FCN: Fusing Exponential and Linear Cross Network for Click-Through Rate Prediction
本論文は DCNv3 および SDCNv3 を提案する。Self-Mask ノイズフィルタリングを備えた明示的特徴交差ネットワークで、特徴クロスの次数を指数的に増大させ、Tri-BCE 監督を導入し、DNN に依存しない明示的相互作用によって、六つの CTR データセットで最先端の結果を達成する。
As an important modeling paradigm in click-through rate (CTR) prediction, the Deep & Cross Network (DCN) and its derivative models have gained widespread recognition primarily due to their success in a trade-off between computational cost and performance. This paradigm employs a cross network to explicitly model feature interactions with linear growth, while leveraging deep neural networks (DNN) to implicitly capture higher-order feature interactions. However, these models still face several key limitations: (1) The performance of existing explicit feature interaction methods lags behind that of implicit DNN, resulting in overall model performance being dominated by the DNN; (2) While these models claim to capture high-order feature interactions, they often overlook potential noise within these interactions; (3) The learning process for different interaction network branches lacks appropriate supervision signals; and (4) The high-order feature interactions captured by these models are often implicit and non-interpretable due to their reliance on DNN. To address the identified limitations, this paper proposes a novel model, called Fusing Cross Network (FCN), along with two sub-networks: Linear Cross Network (LCN) and Exponential Cross Network (ECN). FCN explicitly captures feature interactions with both linear and exponential growth, eliminating the need to rely on implicit DNN. Moreover, we introduce the Self-Mask operation to filter noise layer by layer and reduce the number of parameters in the cross network by half. To effectively train these two cross networks, we propose a simple yet effective loss function called Tri-BCE, which provides tailored supervision signals for each network. We evaluate the effectiveness, efficiency, and interpretability of FCN on six benchmark datasets. Furthermore, by integrating LCN and ECN, FCN achieves a new state-of-the-art performance.
研究の動機と目的
- 従来の DNN ベースの暗黙的相互作用を超える、明示的な特徴相互作用を備えた解釈可能な CTR モデルを動機づける。
- 真のディープクロスを実現するため、cross orders を指数的に拡大させる Deep Crossing (DCNv3) を提案する。
- 低次と高次の明示的相互作用を融合する Shallow & Deep Cross Network v3 (SDCNv3) を提案する。
- Self-Mask を導入し、ノイズをフィルタリングしパラメータを半減させる。
- Tri-BCE loss を開発し、サブネットワークへ適応的な監督信号を提供する。
提案手法
- 共有 Cross & Masked ベクトルのために、マルチフィールドカテゴリ入力をチャンク化して二つのビューに埋め込み・整形する。
- 各層で cross vector と masked concatenation を用い、cross orders を指数的に拡大する Deep Crossing (DCNv3) を定義する。
- Self-Mask を導入: Mask(c_l) = c_l ⊙ max(0, LayerNorm(c_l)),ノイズをフィルタリングしパラメータを半減させる。
- Self-Mask と平行な融合スキームを備えた、浅層と深層の明示的交差を組み合わせる Shallow & Deep Cross Network v3 (SDCNv3) を開発する。
- Tri-BCE loss を提案: L_Tri = L + w_D L_D + w_S L_S、適応的重み w_D = max(0, L_D − L) および w_S = max(0, L_S − L) を用いる。
- パラメータと計算プロファイルにおける explicit-only DCNv3/SDCNv3 の利点を示す複雑さ比較を提供する。
実験結果
リサーチクエスチョン
- RQ1RQ1 大規模データセットでの性能の観点で、DCNv3 と SDCNv3 は他の CTR モデルを上回るか?
- RQ2RQ2 DCNv3 と SDCNv3 は競合する CTR モデルよりも効率的か?
- RQ3RQ3 SDCNv3 は解釈性およびノイズフィルタリング機能を提供するか?
- RQ4RQ4 異なる構成はモデルの性能と学習にどのような影響を与えるか?
主な発見
- SDCNv3 は六つのデータセットすべてで最高の性能を達成し、Criteo、KDD12、KKBox の PapersWithCode ベンチマークで第一位にランクインする。
- DCNv3 は強力なベースラインに比べて明示的相互作用の性能が優れており、Avazu と Criteo で Logloss および AUC の顕著な改善を示す。
- SDCNv3 は明示的特徴相互作用のみを用いて最先端の結果を提供し、Tri-BCE 監督と組み合わせた明示的クロスの有効性を強調する。
- Tri-BCE はサブネットワークへ適応的な監督信号を提供し、訓練ダイナミクスを強化し最終予測を改善する。
- モデルは効率と複雑さの有利なトレードオフを示し、Self-Mask によりパラメータ数を削減し、重い暗黙的 DNN コンポーネントを回避する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。