QUICK REVIEW

[論文レビュー] Variational Information Maximization for Feature Selection

Shuyang Gao, Greg Ver Steeg|arXiv (Cornell University)|Jun 9, 2016

Face and Expression Recognition参考文献 24被引用数 37

ひとこと要約

本稿は、直接的な相互情報量推定の非可解性を克服するため、相互情報量の tractable な下界を用いた、特徴選択のための新しい変分情報最大化フレームワークを提案する。変分分布（特にナイーブベイズおよびペアワイズ Q-分布）を活用することで、木構造のグラフィカルモデル下で理論的最適性保証を伴うグリーディな前向き特徴選択を可能にし、多様なデータセットにおける実験的評価で、既存の情報理論的手法を上回る性能を示した。

ABSTRACT

Feature selection is one of the most fundamental problems in machine learning. An extensive body of work on information-theoretic feature selection exists which is based on maximizing mutual information between subsets of features and class labels. Practical methods are forced to rely on approximations due to the difficulty of estimating mutual information. We demonstrate that approximations made by existing methods are based on unrealistic assumptions. We formulate a more flexible and general class of assumptions based on variational distributions and use them to tractably generate lower bounds for mutual information. These bounds define a novel information-theoretic framework for feature selection, which we prove to be optimal under tree graphical models with proper choice of variational distributions. Our experiments demonstrate that the proposed method strongly outperforms existing information-theoretic feature selection approaches.

研究の動機と目的

特徴独立性とクラス条件付き独立性に関する、互いに矛盾する仮定に依存する既存の情報理論的特徴選択手法の限界を解消すること。
ヒューリスティックな近似を避けるために、変分下界に基づく、計算的に tractable で汎用性の高い特徴選択フレームワークを構築すること。
適切な変分分布の選択により、木構造のグラフィカルモデル下で提案手法の理論的最適性保証を提供すること。
ベンチマークデータセット上で、最先端の情報理論的特徴選択アプローチと比較して、本手法の優位性を実験的に検証すること。

提案手法

選択された特徴とラベルの間の相互情報量に対する変分下界を定式化し、計算可能な最適化を可能にする。
自己回帰的分解を用いて、逐次的に変分下界を最大化することで、前向き特徴選択を実現する。
依存関係をモデル化するための2つの具体的な変分分布を提案する：ナイーブベイズモデルとペアワイズ Q-分布。
各新しい特徴が下界の増分を最大にするように選ばれる、グリーディな前向き選択アルゴリズムを導出する。
変分分布下でのエントロピー近似を用いて、高次元密度推定を完全に必要とせずに目的関数を計算する。
変分分布が真の条件付き依存関係と一致する場合、木構造のグラフィカルモデル下で前向き選択手順が理論的に最適であることを厳密に証明する。

実験結果

リサーチクエスチョン

RQ1相互情報量の変分下界を用いて、理論的根拠と計算的 tractability を備えた特徴選択フレームワークを構築できるか？
RQ2既存の MI に基づく特徴選択手法で一般的に用いられる独立性仮定は、互いに矛盾しており、もしそうであれば、どのように緩和できるか？
RQ3提案された変分フレームワークは、実世界のデータセットにおいて、既存の情報理論的特徴選択手法を上回る性能を達成するか？
RQ4変分下界に基づくグリーディな前向き選択が、どのような条件下で理論的に最適であると証明できるか？

主な発見

特に VMIpairwise の変種は、15個のベンチマークデータセットにおいて平均クロスバリデーション誤差が最低となり、mRMR、JMI、CMIM、CIFE すべてのベースラインを上回った。
ナイーブベイズモデルのみを仮定する VMInaive でさえ、最先端の性能を達成しており、最小限の構造的仮定のもとでも変分フレームワークの有効性が示された。
Gisette データセットでは、VMIpairwise が平均誤差率 4.2±0.8% を達成し、次に良い手法（VMInaive で 4.8±0.9%）を大きく上回り、CIFE（7.1±1.3%）よりも顕著に優れていた。
Madelon データセットでは、VMIpairwise が 16.6±2.9% の誤差率を示したのに対し、mRMR は 30.8±3.8%、JMI は 15.3±2.6% であり、高次元でノイズの多いデータにおいても優れた性能を示した。
高次元、少数サンプル、不均衡なデータセット（例：Colon、Leukemia、Landsat）を含む多様なデータタイプにおいて、一貫した優位性を示した。
適切に選ばれた変分分布のもとで、木構造のグラフィカルモデル下で理論的最適性保証を提供するが、これは先行する情報理論的手法には欠落していた性質である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。