Skip to main content
QUICK REVIEW

[論文レビュー] Infinite Tucker Decomposition: Nonparametric Bayesian Models for Multiway Data Analysis

Zenglin Xu, Feng Yan|arXiv (Cornell University)|Aug 31, 2011
Tensor decomposition and applications参考文献 15被引用数 29
ひとこと要約

本稿では、非パラメトリックベイジアンテンソル分解フレームワークであるInfTuckerを提案する。この手法は、非線形共分散関数を用いたテンソル変量ガウス過程またはt過程を用いて多様なデータをモデル化し、無限次元の特徴抽出を可能にする。本手法は、確率的枠組み内でノイズ、欠損データ、多様なデータタイプを統合的に取り扱うことで、変分推論を効率的に行い、化学計測学的データおよびスパースなバイナリーソーシャルネットワークデータにおいて、最先端手法と比較して顕著に高い予測精度を達成する。

ABSTRACT

Tensor decomposition is a powerful computational tool for multiway data analysis. Many popular tensor decomposition approaches---such as the Tucker decomposition and CANDECOMP/PARAFAC (CP)---amount to multi-linear factorization. They are insufficient to model (i) complex interactions between data entities, (ii) various data types (e.g. missing data and binary data), and (iii) noisy observations and outliers. To address these issues, we propose tensor-variate latent nonparametric Bayesian models, coupled with efficient inference methods, for multiway data analysis. We name these models InfTucker. Using these InfTucker, we conduct Tucker decomposition in an infinite feature space. Unlike classical tensor decomposition models, our new approaches handle both continuous and binary data in a probabilistic framework. Unlike previous Bayesian models on matrices and tensors, our models are based on latent Gaussian or $t$ processes with nonlinear covariance functions. To efficiently learn the InfTucker from data, we develop a variational inference technique on tensors. Compared with classical implementation, the new technique reduces both time and space complexities by several orders of magnitude. Our experimental results on chemometrics and social network datasets demonstrate that our new models achieved significantly higher prediction accuracy than the most state-of-art tensor decomposition

研究の動機と目的

  • 古典的テンソル分解モデルの限界(複雑な非線形相互作用のモデル化不能、ノイズのある観測、欠損データ、非連続データタイプの扱いの難しさ)を解消すること。
  • 適切な尤度関数を用いることで、連続的、バイナリーデータ、欠損データを自然に統合する統一された確率的枠組みを構築すること。
  • 非パラメトリックベイジアン手法を用いて、無限次元の特徴空間におけるタッカー分解を可能にすること。
  • 計算複雑度を複数桁低減する効率的な変分推論技術を設計し、大規模テンソルデータにスケーラブルな処理を可能にすること。
  • 実世界の化学計測学的およびソーシャルネットワークデータセットにおいて、最先端のテンソル分解手法と比較して優れた予測性能を示すこと。

提案手法

  • 多様なデータ解析のための非パラメトリックベイジアンモデルとして、テンソル変量ガウス過程またはt過程に基づくInfTuckerを提案する。
  • 複雑な非線形相互作用をモデル化するために、非線形共分散関数(例:指数関数的関数)を用いる。
  • 観測されたテンソルが、コアテンソルと要因行列を持つ確率的生成モデルの実現であると仮定する。
  • テンソル構造を活用して計算複雑度を低減する、新しい変分推論手法を開発し、大規模データセットへのスケーラビリティを実現する。
  • 同一の枠組み内で連続的およびバイナリーデータタイプを処理するために、異なる尤度関数(ガウス分布、ベルヌーイ分布)を適用する。
  • 変分ベイズを用いて潜在変数の事後分布を近似し、効率的な学習と不確実性の定量化を可能にする。

実験結果

リサーチクエスチョン

  • RQ1非パラメトリックベイジアン枠組みは、多様なデータモード間の複雑な非線形相互作用を効果的にモデル化できるか?
  • RQ2テンソル分解は、統一された確率的モデル内で欠損データ、ノイズのある観測、混合データタイプ(連続的およびバイナリーデータ)をどのように拡張できるか?
  • RQ3非線形共分散関数を有する非パラメトリックベイジアンモデルを用いた大規模テンソル分解において、効率的な推論が達成可能か?
  • RQ4提案されたInfTuckerモデルは、実世界のデータセットにおいて、古典的および最先端のテンソル分解手法と比較して、予測精度で優れているか?
  • RQ5t過程の重い尾を持つ性質により、ガウス過程と比較して外れ値やノイズに対してよりロバストな性能を発揮するか?

主な発見

  • 化学計測学的およびソーシャルネットワークデータセットにおいて、InfTucker^gp(ガウス過程)は、すべてのベースライン手法と比較して顕著に高い予測精度を達成し、平均二乗誤差が低かった。
  • InfTucker^tp(t過程)は、ほとんどのケースでInfTucker^gpを上回り、特にノイズが多いか外れ値を含むデータに対して顕著に優れた性能を示した。これは、t分布の重い尾の性質によるものである。
  • バイナリーソーシャルネットワークデータセット(Enron, Digg1, Digg2)において、InfTucker^gpおよびInfTucker^tpは、CP、TD、WCPと比較して、AUC値が高かった。CP、TD、WCPは、最小二乗法の最小化に起因する過学習とゼロ値予測の問題を抱えていた。
  • 提案された変分推論手法により、古典的実装と比較して時間的・空間的複雑度が複数桁低減され、比較的大きなデータセットにおける効率的な学習が可能になった。
  • 本モデルは欠損データおよびノイズに対してロバストであり、事後分布を用いた予測の不確実性の定量化が可能であり、不確実性推定機能を欠いた非確率的アプローチを上回った。
  • 交差検証の結果、化学計測学的データセットでは最適な潜在的要因数はr=3であった。また、ソーシャルネットワークデータセットでは、さまざまなr値に対してもInfTuckerは優れた性能を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。