QUICK REVIEW

[論文レビュー] Higher-Order Factorization Machines

Mathieu Blondel, Akinori Fujino|arXiv (Cornell University)|Jul 25, 2016

Face and Expression Recognition参考文献 19被引用数 51

ひとこと要約

本稿では、ANOVAカーネルとの関連を活用することで、予測および勾配計算に線形時間の動的計画法を適用できる、高次因子分解マシン（HOFM）のための初めての効率的な学習アルゴリズムを提示する。共有パラメータを用いた変種（HOFM-shared-augmentedおよびHOFM-shared-simplex）を導入し、モデルサイズと推論時間を削減しながら高い精度を維持しており、4つのリンク予測タスクで最先端のAUCスコアを達成している。

ABSTRACT

Factorization machines (FMs) are a supervised learning approach that can use second-order feature combinations even when the data is very high-dimensional. Unfortunately, despite increasing interest in FMs, there exists to date no efficient training algorithm for higher-order FMs (HOFMs). In this paper, we present the first generic yet efficient algorithms for training arbitrary-order HOFMs. We also present new variants of HOFMs with shared parameters, which greatly reduce model size and prediction times while maintaining similar accuracy. We demonstrate the proposed approaches on four different link prediction tasks.

研究の動機と目的

高次因子分解マシン（HOFM）のための効率的な学習アルゴリズムが不足しており、計算コストが高いため実用的でなかったという問題に対処する。
ANOVAカーネルとの関連を活用することで、任意の次数のHOFMの学習を可能にし、予測と勾配の計算を効率的に行えるようにする。
共有パラメータを用いた新しいHOFM変種を導入することで、モデルの複雑さと推論時間を低減し、予測性能を損なわずに済ませる。
提案手法の有効性を、実世界のリンク予測タスクにおいて実証し、次数の増加に対しても一般化性能とロバスト性が向上することを示す。
特徴量数とモデル次数に線形時間の複雑度を持つ、スケーラブルな最適化アルゴリズム（確率的勾配法と座標降下法）を提供する。

提案手法

ANOVAカーネルを用いてHOFMを定式化し、特徴量数に比例する線形時間で多項式展開を計算できる動的計画法の適用を可能にする。
予測と勾配の両方を特徴量数に線形時間で評価できる、線形時間の動的計画法アルゴリズムを設計し、効率的な最適化に不可欠な基盤を提供する。
特徴量数とモデル次数に線形時間の実行時間を持つ、HOFMの学習のための確率的勾配法と座標降下法を実装する。
共有パラメータを用いた2つの新しいHOFM変種（HOFM-shared-augmented（拡張特徴空間を用いる）およびHOFM-shared-simplex（単体に基づくパラメータ共有を用いる））を導入し、パラメータ数と推論時間を削減する。
共有変種では、すべての特徴量相互作用次数に同一のパラメータ行列を適用することで、モデルサイズを顕著に削減しながら表現力は維持する。
標準的な評価指標（AUC）を用いてリンク予測タスクにアルゴリズムを適用し、ハイパーパramータは交差検証により選択し、初期化を一貫して行う。

実験結果

リサーチクエスチョン

RQ1特徴量相互作用の組み合わせ的爆発を回避できる、任意の次数のHOFMのための効率的学習アルゴリズムを設計できるか？
RQ2予測精度を損なわず、パラメータ数と推論時間を削減するにはどうすればよいか？
RQ3共有パラメータ設計が、さまざまなリンク予測タスクにおけるモデル性能とスケーラビリティに与える影響は何か？
RQ4標準的なソルバー（AdaGrad や L-BFGS）と比較して、提案アルゴリズムの収束速度と安定性はどの程度か？
RQ5HOFMにおける特徴量相互作用の次数を増加させることで、一貫して予測性能が向上するか？

主な発見

提案されたHOFMモデルは、4つのリンク予測データセットのうち3つ（NIPS、Enzyme、Movielens 100K）で最高のAUCスコアを達成した。m=3の場合、NIPSで0.875、Enzymeで0.888のAUCを記録した。
HOFM-shared-augmented変種は、m=4のNIPSで0.874のAUCを達成し、標準HOFMと同等の性能を維持しながら、顕著に少ないパラメータ数と高速な推論を実現した。
HOFM-shared-simplex変種は、HOFM-shared-augmentedに比べて性能が劣り、特に大きなデータセットでは顕著に効果の薄いパラメータ共有が見られた。
座標降下法は、m ≤ 3の範囲でL-BFGS や AdaGrad を上回ったが、m ≥ 4ではL-BFGSの収束特性が優れていたため、より効果的となった。
AdaGradは学習率に非常に敏感で、η ≥ 0.01では発散したが、収束させるにはη = 0.001を必要とした。一方、1エポックあたりのコストは低かった。
HOFMモデルは次数mの増加に対してもロバストであり、m=2からm=5にかけてほとんどのデータセットでAUCスコアが安定またはわずかに向上した。これは、各次数ごとの正則化が効果的に機能していることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。