Skip to main content
QUICK REVIEW

[論文レビュー] InfTucker: t-Process based Infinite Tensor Decomposition

Zenglin Xu, Feng Yan|arXiv (Cornell University)|Aug 31, 2011
Tensor decomposition and applications被引用数 2
ひとこと要約

InfTucker は、tプロセスと無限の特徴空間を用いた非パラメトリックベイジアンテンソル分解フレームワークを提案する。これにより、複雑な相互作用、混合データ型(連続的およびバイナリーデータ)、外れ値をモデル化できる。効率的な変分推論により、時間的・空間的計算量を複数桁削減することで、化学計測学およびソーシャルネットワークデータセットにおいて、最先端の手法よりも顕著に高い予測精度を達成する。

ABSTRACT

Tensor decomposition is a powerful computational tool for multiway data analysis. Many popular tensor decomposition approaches---such as the Tucker decomposition and CANDECOMP/PARAFAC (CP)---amount to multi-linear factorization. They are insufficient to model (i) complex interactions between data entities, (ii) various data types (e.g. missing data and binary data), and (iii) noisy observations and outliers. To address these issues, we propose tensor-variate latent nonparametric Bayesian models, coupled with efficient inference methods, for multiway data analysis. We name these models InfTucker. Using these InfTucker, we conduct Tucker decomposition in an infinite feature space. Unlike classical tensor decomposition models, our new approaches handle both continuous and binary data in a probabilistic framework. Unlike previous Bayesian models on matrices and tensors, our models are based on latent Gaussian or $t$ processes with nonlinear covariance functions. To efficiently learn the InfTucker from data, we develop a variational inference technique on tensors. Compared with classical implementation, the new technique reduces both time and space complexities by several orders of magnitude. Our experimental results on chemometrics and social network datasets demonstrate that our new models achieved significantly higher prediction accuracy than the most state-of-art tensor decomposition

研究の動機と目的

  • 古典的なテンソル分解モデルがデータエンティティ間の複雑な相互作用を処理する能力に限界を示す問題に対処すること。
  • 欠損データ、バイナリーデータ、ノイズの多い観測値を含む多様なデータタイプを、統一的な確率的フレームワーク内でモデル化すること。
  • タッカー分解における無限の特徴学習を可能にする非パラメトリックベイジアンアプローチを構築すること。
  • スケーラブルな変分推論技術を用いて、テンソル分解における計算複雑度を低減すること。
  • 異種でノイズの多いデータを含む実世界のデータセットにおける予測精度を向上させること。

提案手法

  • 非線形共分散関数を用いたtプロセスに基づくテンソル変量の潜在的非パラメトリックベイジアンモデルを提案する。
  • 潜在的なガウス分布またはtプロセスを用いた無限タッカーデコンポジションのためのInfTuckerフレームワークを導入する。
  • 大規模な設定において効率的な学習を可能にするために、テンソルに特化した変分推論技術を採用する。
  • 多様なデータにおける複雑な非線形的相互作用を捉えるために、非線形共分散関数を用いる。
  • 単一の確率的テンソル分解フレームワーク内で、連続的およびバイナリーデータの共同モデリングを可能にする。
  • 古典的実装と比較して、時間的・空間的計算量を複数桁削減する。

実験結果

リサーチクエスチョン

  • RQ1マルチウェイデータにおけるデータエンティティ間の複雑で非線形的な相互作用を扱えるように、テンソル分解モデルをどのように拡張できるか?
  • RQ2非パラメトリックベイジアンアプローチは、連続的、バイナリーデータ、欠損データといった混合データタイプを、統一的なテンソル分解フレームワーク内で効果的にモデル化できるか?
  • RQ3tプロセスと無限の特徴空間は、テンソル分解におけるノイズおよび外れ値に対して、どのように耐性を高めるか?
  • RQ4変分推論は、テンソル分解におけるスケーラビリティおよび計算効率にどのような影響を与えるか?
  • RQ5提案されたInfTuckerフレームワークは、実世界のデータセットにおいて、最先端の手法よりも予測精度をどの程度上回るか?

主な発見

  • InfTucker は、化学計測学およびソーシャルネットワークデータセットにおいて、最先端のテンソル分解手法よりも顕著に高い予測精度を達成する。
  • 提案された変分推論技術により、古典的実装と比較して時間的・空間的計算量が複数桁削減された。
  • モデルは、連続的およびバイナリーデータを含む混合データタイプを、単一の確率的フレームワーク内で効果的に処理できる。
  • tプロセスの使用により、ノイズの多い観測値および外れ値のロバストなモデリングが可能になる。
  • 無限の特徴空間により、事前にコンポonent数を指定せずに、柔軟でデータ駆動型の潜在的構造の同定が可能になる。
  • tプロセスモデルにおける非線形共分散関数は、マルチウェイ配列におけるデータエンティティ間の複雑な非線形的相互作用を捉える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。