QUICK REVIEW

[論文レビュー] Estimating the class prior and posterior from noisy positives and unlabeled data

Shantanu Jain, Martha White|arXiv (Cornell University)|Jun 28, 2016

Machine Learning and Data Classification参考文献 22被引用数 72

ひとこと要約

本稿では、高次元設定におけるノイズのある正例-未ラベル付きデータからクラス事前確率および事後分布を推定するための新しい手法を提案する。次元削減と信頼性の低いカーネル密度推定を避けるために、クラス事前確率を保持する単変量変換を適用することで、既存の手法よりも顕著に推定精度を向上させるパラメトリックおよびノンパラメトリックなアルゴリズムを開発した。特にラベルノイズおよび高次元性の下でも優れた性能を示す。

ABSTRACT

We develop a classification algorithm for estimating posterior distributions from positive-unlabeled data, that is robust to noise in the positive labels and effective for high-dimensional data. In recent years, several algorithms have been proposed to learn from positive-unlabeled data; however, many of these contributions remain theoretical, performing poorly on real high-dimensional data that is typically contaminated with noise. We build on this previous work to develop two practical classification algorithms that explicitly model the noise in the positive labels and utilize univariate transforms built on discriminative classifiers. We prove that these univariate transforms preserve the class prior, enabling estimation in the univariate space and avoiding kernel density estimation for high-dimensional data. The theoretical development and both parametric and nonparametric algorithms proposed here constitutes an important step towards wide-spread use of robust classification algorithms for positive-unlabeled data.

研究の動機と目的

ノイズのある正例ラベルを伴う高次元データにおけるクラス事前確率推定のための実用的でないアルゴリズムの欠如に対処する。
クリーンなラベルに依存する既存手法の限界や、高次元空間における性能の劣化を克服する。
次元削減の過程でクラス事前確率を保持するフレームワークを構築し、信頼性の高い密度推定を可能にする。
ノイズラベル下でのクラス事前確率および事後確率推定のためのパラメトリックおよびノンパラメトリックなアルゴリズムを提供する。
合成および実世界のデータセットを用いて、本手法の有効性を実証し、最先端のベースライン手法を上回ることを示す。

提案手法

ラベルノイズを考慮したノイズのある正例-未ラベル付きデータからのクラス事前確率推定問題を形式化し、同定可能性理論を拡張してラベルノイズに対応する。
クラス事前確率を保持する単変量変換を導入し、低次元空間での信頼性の高い密度推定を可能にする。
zスコア正規化されたデータに対して主成分分析（PCA）を適用し、クラス事前確率情報を保持したまま次元を削減する。
バイナリ幅を正規参考則を用いて選択することでAMISEを最小化するヒストグラムベースの密度推定を、変換された単変量空間で実行する。
クラス事前確率を保持する変換を活用したパラメトリックアルゴリズム（AlphaMax-N）およびノンパラメトリックアルゴリズム（MSGMM-T）を開発する。
変換をラベル付きおよび未ラベル付きデータの両方に適用し、単変量空間での推定されたクラス事前確率が元の空間の真の事前確率を的確に反映していることを保証する。

実験結果

リサーチクエスチョン

RQ1ノイズのある正例-未ラベル付き学習における高次元データのクラス事前確率推定は、ラベルノイズに対してロバストに可能か？
RQ2クラス事前確率を保持する単変量変換は、直接的な高次元密度推定と比較して、より正確な事後確率および事前確率推定を可能にするか？
RQ3本手法は、既存の最先端手法と比較して推定誤差および計算コストの面で優れているか？
RQ4PCAに基づく次元削減とヒストグラムベースの密度推定の組み合わせは、ノイズのあるラベルを伴う実世界データセットにおいて性能を向上させるか？
RQ5クラス事前確率を保持する変換は、パラメトリックおよびノンパラメトリック推定フレームワークの両方へ効果的に適用可能か？

主な発見

クラス事前確率を保持する変換を用いた本手法のAlphaMax-Nは、変換なしのAlphaMax-NMと比較して、12個のUCIデータセットすべてで顕著に低い推定誤差を達成し、平均絶対誤差はそれぞれ0.037と0.028であった。
AlphaMax-Nは12個のデータセットのうち10個で他のすべての手法を上回り、8つのケースで統計的有意性（p < 0.05）を示し、ラベルノイズに対して高いロバスト性を示した。
MSGMM-T（変換あり）はMSGMM（変換なし）を著しく上回り、Landsatデータセットでは平均絶対誤差を0.298から0.152に低下させた。これは変換が性能向上に不可欠であることを示している。
Pimaデータセットでは、変換を用いたAlphaMax-Nが平均絶対誤差0.110を達成し、MSGMM（0.292）およびAlphaMax-NM（0.156）を著しく上回った。これは高次元でノイズが多い環境下での優位性を示している。
上位3つの主成分で分散の75％しか保持しなくても、本手法は強固な性能を維持した。これは中程度の次元削減に対しても耐性があることを示している。
ヒストグラムベースの密度推定におけるバイナリ幅選択に正規参考則を用いることで、特にカーネル密度推定が失敗する高次元データにおいて、安定的で低誤差の推定が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。