QUICK REVIEW

[論文レビュー] Generalized Min-Max Kernel and Generalized Consistent Weighted Sampling

Ping Li|arXiv (Cornell University)|Jan 1, 2016

Face and Expression Recognition参考文献 26被引用数 6

ひとこと要約

本稿では、符号が混合するデータに適した正定値カーネルとしての一般化最小最大化（GMM）カーネルと、それに連動するハッシング手法である一般化一貫加重抽出（GCWS）を提案する。GCWSは、推定の分散が低いため、特に類似度が高い値において、RBFカーネルとランダムフーリエ特徴量（RFF）を用いた場合と同等またはそれ以上の分類精度を達成しつつ、はるかに少ないサンプル数で実現できる。

ABSTRACT

We propose the generalized min-max (GMM) kernel as a measure of data similarity, where data vectors can have both positive and negative entries. GMM is positive definite as there is an associate hashing method named generalized consistent weighted sampling (GCWS) which linearizes this (nonlinear) kernel. A natural competitor of GMM is the radial basis function (RBF) kernel, whose corresponding hashing method is known as the Fourier (RFF). An extensive experimental study on classifications of extbf{50} publicly available datasets demonstrates that both the GMM and RBF kernels can often substantially improve over linear classifiers. Furthermore, the GCWS hashing method typically requires substantially fewer samples than RFF in order to achieve similar classification accuracies. To understand the property of random Fourier features (RFF), we derive the theoretical variance of RFF, which reveals that the variance of RFF has a term that does not vanish at any similarity. In comparison, the variance of GCWS approaches zero at certain similarities. Overall, the relative (to the expectation) variance of RFF is substantially larger than the relative variance of GCWS. This helps explain the superb empirical results of GCWS compared to RFF. We expect that GMM and GCWS will be adopted in practice for large-scale statistical machine learning applications and efficient near neighbor search (as GMM generates discrete hash values).

研究の動機と目的

符号が混合するデータベクトルを扱えるように拡張された、正定値カーネル（GMM）の開発。
GMMカーネルを線形化し、大規模機械学習における効率的な計算と近似最近傍探索を可能にするハッシング手法（GCWS）の設計。
分類タスクにおけるRBFカーネルの性能を、必要なサンプル数を削減しながらも精度を維持する形で向上させること。
ランダムフーリエ特徴量（RFF）の分散を理論的に分析し、GCWSと比較することで、実験的性能の差異を説明すること。
多様なデータセットを用いた広範な実験を通じて、GCWSがRFFに比べてサンプル効率と分類精度の両面で実用的に優れていることを示すこと。

提案手法

符号が混合するベクトルを扱えるように一般化された最小最大化カーネル（GMMカーネル）を、類似度測定として提案する。
GMMカーネルが正定値であることを示すために、カーネルの線形化を可能にするハッシング手法、一般化一貫加重抽出（GCWS）を構築する。
RFFの理論的分散を導出し、その分散がすべての類似度レベルで消えない非ゼロ項を含むのに対し、GCWSは特定の類似度において分散がゼロに近づくことを示す。
GCWSを用いて離散的なハッシュ値を生成することで、効率的な近似最近傍探索とスケーラブルなカーネル近似を実現する。
一貫した加重抽出戦略を採用することで、特に類似度が高い値において低分散のカーネル推定を実現する。
50個の公開データセットを用いた広範な実験を通じて、GCWSとRFFを分類精度とサンプル効率の観点から比較する。

実験結果

リサーチクエスチョン

RQ1符号が混合するデータベクトルを扱えるように一般化された最小最大化カーネルを構築でき、かつ正定値性を保つことができるか？
RQ2特に類似度が高い値において、GCWSの分散行動はRFFと比べてどのように異なるか？
RQ3GCWSは、はるかに少ないサンプル数でRFFと同等またはそれ以上の分類精度を達成できるか？
RQ4GCWSがRFFよりも優れた実験的性能を示す背後にある理論的要因（分散特性）は何か？
RQ5GCWSが生成する離散的ハッシュ出力のおかげで、大規模機械学習および効率的な最近傍探索に実際に有効に利用できるか？

主な発見

GMMカーネルは正定値であり、それに連動するハッシング手法GCWSを備えており、カーネルの線形化と効率的計算を可能にする。
GCWSは、ランダムフーリエ特徴量（RFF）を用いたRBFカーネルと同等の分類精度を達成するが、必要なサンプル数を著しく削減できる。
RFFの理論的分散はすべての類似度レベルでゼロに近づかないのに対し、GCWSの分散は特定の類似度においてゼロに近づくため、推定誤差が低くなる。
RFFの相対的分散はGCWSに比べて著しく大きいことが判明し、これによりGCWSの優れた実験的性能が説明できる。
50個の公開データセットにおいて、GMMおよびRBFカーネルは線形分類器に比べて分類タスクで顕著に優れた性能を示した。
GCWSが生成する離散的ハッシュ値は、大規模応用における効率的な近似最近傍探索に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。