QUICK REVIEW

[論文レビュー] Complex-valued embeddings of generic proximity data

Maximilian Münch, Michiel Straat|arXiv (Cornell University)|Aug 31, 2020

Text and Document Classification Technologies参考文献 21被引用数 3

ひとこと要約

本稿では、非メトリックまたは非正定値（非-psd）な近接データを固定長の複素数ベクトルに変換する複素数埋め込み手法を提案する。これにより、標準的な機械学習アルゴリズムの有効な利用が可能となる。低ランク近似とノルムに基づく補正を活用することで、元のデータ情報が保持され、従来の補正なしカーネル行列を用いた手法と比較して、ベンチマークデータセットにおいて優れた分類精度を達成する。

ABSTRACT

Proximities are at the heart of almost all machine learning methods. If the input data are given as numerical vectors of equal lengths, euclidean distance, or a Hilbertian inner product is frequently used in modeling algorithms. In a more generic view, objects are compared by a (symmetric) similarity or dissimilarity measure, which may not obey particular mathematical properties. This renders many machine learning methods invalid, leading to convergence problems and the loss of guarantees, like generalization bounds. In many cases, the preferred dissimilarity measure is not metric, like the earth mover distance, or the similarity measure may not be a simple inner product in a Hilbert space but in its generalization a Krein space. If the input data are non-vectorial, like text sequences, proximity-based learning is used or ngram embedding techniques can be applied. Standard embeddings lead to the desired fixed-length vector encoding, but are costly and have substantial limitations in preserving the original data's full information. As an information preserving alternative, we propose a complex-valued vector embedding of proximity data. This allows suitable machine learning algorithms to use these fixed-length, complex-valued vectors for further processing. The complex-valued data can serve as an input to complex-valued machine learning algorithms. In particular, we address supervised learning and use extensions of prototype-based learning. The proposed approach is evaluated on a variety of standard benchmarks and shows strong performance compared to traditional techniques in processing non-metric or non-psd proximity data.

研究の動機と目的

非メトリックまたは非正定値（非-psd）な近接データに標準的な機械学習アルゴリズムを適用する際の制限を解消すること。これは、収束問題や一般化保証の喪失を引き起こすことがある。
一般化された近接行列を、下流の学習に適した固定長の複素数ベクトルに変換する情報保持型の埋め込み技術を開発すること。
本質的に不定な類似度または類似度データに対して、よく理解され、効率的な学習アルゴリズム（特に複素数ベクトルのプロトタイプ）の使用を可能にすること。
近接ベースのモデルにおける、伝統的な不定カーネル学習の主な限界である、out-of-sample拡張のための計算的に効率的な手法を提供すること。

提案手法

本手法は、ランドマークベースのサンプリングを用いて、元の近接行列に対して低ランク近似を適用する。ランドマークの数は、データセットのサイズに応じて40、70、または100に設定される。
スペクトル構造を保持しつつ数値安定性を確保する変換を経て、複素数埋め込み行列が構築される。
正定値（psd）構造を強制するために、埋め込み行列にノルムに基づく補正が適用される。これにより、psdに基づく学習モデルでの利用が可能になる。
埋め込みられた複素数ベクトルが、一般化学習ベクトル量子化（cGLVQ）や行列学習ベクトル量子化（cGMLVQ）を含む複素数学習アルゴリズムの入力として使用される。
cGMLVQでは、複素空間における特徴の重みを適応的に調整するための関連性学習が組み込まれ、モデル性能の向上が図られる。
多くの伝統的カーネル手法とは異なり、明示的な埋め込みのおかげで、out-of-sample拡張が自然に可能となる。

実験結果

リサーチクエスチョン

RQ1複素数埋め込みは、機械学習に必要な情報を保持しつつ、非-psd近接データを効果的に表現できるか？
RQ2提案された埋め込み手法は、従来のアプローチと比較して、不定な近接データにおいてより高い分類精度を達成できるか？
RQ3複素数GLVQにおける関連性学習の組み込みは、標準的なcGLVQと比較して性能にどのように影響するか？
RQ4埋め込み行列に対するノルムに基づく補正は、モデルの安定性と一般化性能をどの程度向上させるか？
RQ5埋め込みは、伝統的な不定カーネル学習における主要な課題である効率的なout-of-sample拡張をサポートできるか？

主な発見

複素数一般化学習ベクトル量子化（cGLVQ）は、補正なしの不定データにおいて、最近傍法分類器よりも顕著に高い精度を達成した。特にBalls3dのような挑戦的なデータセットでは、0.61 vs. 0.48の精度を示した。
関連性学習を組み込んだcGMLVQのバージョンは、Protein（0.98 vs. 0.22の精度）やZongker（0.92 vs. 0.58の精度）といった複数のデータセットで、cGLVQおよび最近傍法を上回った。
Chromosomesデータセットでは最近傍法分類器が最も高い精度（0.95）を示したが、これはほとんどが無視できる値および近似ゼロの負の固有値を持つ有利な固有値スペクトルのおかげであり、性能は固有値の性質に依存することが示唆された。
関連性学習を含まないcGLVQでも、ほとんどの場合で最近傍法を上回る性能を示した。これは、埋め込み補正ステップが信頼性の高い性能を実現するために不可欠であることを示している。
本手法は、テキストシーケンス（DelftGestures）、生物学的シーケンス（Protein）、および合成データ（Balls）を含む多様なベンチマークで強力な性能を発揮し、広範な適用可能性を示した。
低ランク埋め込みは、元のカーネル行列を低い再構成誤差で効果的に近似し、元の近接データからの主要な情報を保持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。