[論文レビュー] Predicting online user behaviour using deep learning algorithms
本稿では、eコマースにおけるクリックストリームデータからオンラインユーザーの購入意図を予測するために、ディープラーニングフレームワークを提案する。Deep Belief Networks (DBN) と Stacked Denoising Autoencoders (SdA) を用い、3%の購入セッションという極めて不均衡なデータセットで、SOTAのAUC性能(0.86)を達成した。ロジスティック回帰やランダムフォレストといった従来のモデルを上回った。
We propose a robust classifier to predict buying intentions based on user behaviour within a large e-commerce website. In this work we compare traditional machine learning techniques with the most advanced deep learning approaches. We show that both Deep Belief Networks and Stacked Denoising auto-Encoders achieved a substantial improvement by extracting features from high dimensional data during the pre-train phase. They prove also to be more convenient to deal with severe class imbalance.
研究の動機と目的
- 高次元でスパースなクリックストリームデータを活用したディープラーニングにより、eコマースにおける購入意図予測の精度を向上させること。
- 実世界のeコマースデータセットに共通する深刻なクラス不均衡問題(購入セッションが3%にとどまる)に対処すること。
- 特にDBNおよびSdAといったディープラーニングアーキテクチャが、ロジスティック回帰やランダムフォレストといった従来の機械学習モデルを上回る有効性を評価すること。
- スパースで高次元のユーザ行動データに対して、教師なし事前学習が一般化性能を向上させる役割を果たすかを検証すること。
- バリエーションベイズ最適化を用いて、検証データにおけるAUC性能を最大化するように、ディープニューラルネットワークのハイパーパrameterを最適化すること。
提案手法
- 大手eコマースプラットフォームのクリックストリームデータを用い、ページビュー、バスケットビュー、購入イベントを含む。100万セッション、25,000種類の商品タイプを対象とした。
- ユーザーのセッションを集約し、アイテムの閲覧時間の計算、およびword2vec(50次元)を用いたテキスト埋め込みによるアイテム固有の特徴の拡充を含む、前処理を実施した。
- 非負値行列分解(NMF)を用いて次元削減を行い、ページビューの85%と購入の92%をカバーする257の高トラフィック商品カテゴリに焦点を当てた。
- 教師なし事前学習として、Deep Belief Networks (DBN) および Stacked Denoising Autoencoders (SdA) を用い、元の高次元入力から階層的特徴を抽出した。
- バックプロパゲーションを用いて、ソフトマックス出力層でディープネットワークを微調整し、20回の試行でバリエーションベイズ最適化によりハイパーパrameter(学習率、ドロップアウト、L2正則化など)を最適化した。
- 実装にはKerasとTheanoバックエンドを用い、複数のデータセットでモデルを評価した。ハイパーパrameterはデータセット3で最適化し、他のデータセットにも一貫して適用した。
実験結果
リサーチクエスチョン
- RQ1DBNやSdAといったディープラーニングモデルは、スパースなクリックストリームデータからオンライン購入意図を予測する際、ロジスティック回帰やランダムフォレストといった従来の機械学習モデルを上回ることができるか?
- RQ2DBNおよびSdAといった教師なし事前学習技術は、ラベル付き購入イベントが限られる高度に不均衡なeコマースデータセットにおいて、性能向上にどの程度有効であるか?
- RQ3この文脈において、AUC性能を最適化するためのハイパーパrameter設定(学習率、ドロップアウト、L2正則化など)は何か?
- RQ4商品説明にword2vec埋め込みを用いることで、モデルの予測力が向上するか?
- RQ5トレーニングデータ量の増加に伴い、モデル性能はどのように変化するか?また、スケーラビリティおよびトレーニング効率における限界は何か?
主な発見
- Stacked Denoising Autoencoders (SdA) は、データセット6で最高のAUC 0.86を達成し、DBN(0.84)や従来のモデルを顕著に上回った。
- DBNおよびSdAは、ロジスティック回帰やランダムフォレストといった従来のモデルと比較して、高次元でスパースなデータの処理において顕著な性能向上を示した。
- DBNおよびSdAにおける教師なし事前学習の活用により、より優れた特徴抽出と一般化性能が達成され、特に購入セッションが3%というデータが限られる状況で顕著に効果を発揮した。
- バリエーションベイズ最適化により、ディープネットワークのハイパーパrameterが効果的に最適化された。特に、ReLUベースのネットワークではドロップアウトとL2正則化が最も効果的であった。
- データ量が増加するにつれて、ディープラーニングモデルと従来モデルとの性能差が拡大した。これは、ディープアーキテクチャにスケーラビリティの利点があることを示唆している。
- 高い性能を達成したが、並列処理効率が限定的であり、計算コストとデータのスパarsityのため、リアルタイムデプロイメントに課題があることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。