QUICK REVIEW

[論文レビュー] Positive-Unlabeled Learning with Non-Negative Risk Estimator

Ryuichi Kiryo, Gang Niu|arXiv (Cornell University)|Mar 2, 2017

Machine Learning and Data Classification参考文献 39被引用数 139

ひとこと要約

本論文は、深層ネットワークを含む柔軟なモデル上での過学習を抑制するためのPU学習向けの非負リスク推定量を導入し、陽性-未ラベルデータ上での効果的な利用を可能にし、理論的保証と大規模学習アルゴリズムを提供する。

ABSTRACT

From only positive (P) and unlabeled (U) data, a binary classifier could be trained with PU learning, in which the state of the art is unbiased PU learning. However, if its model is very flexible, empirical risks on training data will go negative, and we will suffer from serious overfitting. In this paper, we propose a non-negative risk estimator for PU learning: when getting minimized, it is more robust against overfitting, and thus we are able to use very flexible models (such as deep neural networks) given limited P data. Moreover, we analyze the bias, consistency, and mean-squared-error reduction of the proposed risk estimator, and bound the estimation error of the resulting empirical risk minimizer. Experiments demonstrate that our risk estimator fixes the overfitting problem of its unbiased counterparts.

研究の動機と目的

柔軟なモデルにおける無偏リスク推定量を用いたPU学習の動機付けと過学習の問題。
負の経験リスクを防ぎ、過学習を抑制する非負リスク推定量の導入。
nnPUのバイアス、整合性、および平均二乗誤差の低減に関する理論分析を提供。
nnPUを用いて分類器を訓練する大規模かつ SGD対応のアルゴリズムを提案。
深層アーキテクチャを用いた複数データセットにおけるnnPUの経験的改善を示す。

提案手法

既存の無偏PUリスク推定量と、モデルが高度に柔軟な場合の制約をレビューする。
PUフレームワーク内で非負PUリスク推定量 0 0?（ここは元の式をそのまま表示します）を pi_p R_p^+(g) + max{0, R_u^-(g) - pi_p R_p^-(g)} を定義する。
非負リスクを最小化する SGDベースの大規模訓練アルゴリズム（Algorithm 1）を提案し、シグモイド損失などの代理損失を用いる。
訓練を安定に保つため、制御された負リスク項を伴う確率的最適化スキームを使用する。
nnPU推定量のバイアス、整合性、およびMSE低減に関する理論的結果を提供。
深層モデルのための代理損失と実装上の実践的考慮事項に関する指針を提供。

実験結果

リサーチクエスチョン

RQ1高度に柔軟なモデルを用いたPU学習において、非負リスク推定量は過学習を是正できるか？
RQ2非負PUリスク推定量のバイアス、整合性、およびMSE特性は何か？
RQ3深層ニューラルネットワークを用いた大規模設定で、nnPUはPNおよび無偏PU学習と比較してどのように性能を発揮するか？
RQ4nnPUに適した代理損失関数はどれで、どのように最適化すべきか？
RQ5正のクラス事前分布pi_pのミススペシフィケーションはnnPUの性能にどのように影響するか？

主な発見

深層ニューラルネットワークのような柔軟なモデルを用いる場合に、無偏PU学習で観測された過学習をnnPUが低減する。
nnPU推定量はバイアスがあるが一貫性がある；そのリスクは真のリスクへ、O_p(pi_p/√n_p + 1/√n_u)の速度で収束する。
複数のベンチマーク（MNIST、epsilon、CIFAR-10）で無偏PUおよびPNより低いテストリスクを達成；20NewsではPNの性能と同等。
提案された大規模アルゴリズムは、一般的な代理損失（例：シグモイド）でnnPUの確率的最適化を可能にする。
典型的な仮定とデータ状況下で、nnPUは無偏PU推定量と比較してMSEを低減することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。