QUICK REVIEW

[論文レビュー] Instance-Dependent PU Learning by Bayesian Optimal Relabeling

Fengxiang He, Tongliang Liu|arXiv (Cornell University)|Aug 7, 2018

Machine Learning and Algorithms参考文献 40被引用数 29

ひとこと要約

本稿では、分類の難易度を測る指標である確率的ギャップに基づくベイジアン最適再ラベル化を用いた、モデルフリーでインスタンス依存のPU学習手法を提案する。真の後方確率差を観測済みラベルから推定し、ドメインバイアスを是正するためのカーネル平均マッチングを適用することで、ハイパーパramータチューニングなしで合成および実世界のデータセットにおいて最先端の性能を達成する。

ABSTRACT

When learning from positive and unlabelled data, it is a strong assumption that the positive observations are randomly sampled from the distribution of $X$ conditional on $Y = 1$, where X stands for the feature and Y the label. Most existing algorithms are optimally designed under the assumption. However, for many real-world applications, the observed positive examples are dependent on the conditional probability $P(Y = 1|X)$ and should be sampled biasedly. In this paper, we assume that a positive example with a higher $P(Y = 1|X)$ is more likely to be labelled and propose a probabilistic-gap based PU learning algorithms. Specifically, by treating the unlabelled data as noisy negative examples, we could automatically label a group positive and negative examples whose labels are identical to the ones assigned by a Bayesian optimal classifier with a consistency guarantee. The relabelled examples have a biased domain, which is remedied by the kernel mean matching technique. The proposed algorithm is model-free and thus do not have any parameters to tune. Experimental results demonstrate that our method works well on both generated and real-world datasets.

研究の動機と目的

既存のPU学習手法が正例の間で一定の誤ラベル化率を仮定しているという制限に対処すること。
より分類が難しい例（確率的ギャップが低い）はラベル付けされにくくなるというインスタンス依存のラベル付けバイアスをモデル化すること。
真のラベルが入手不可であるにもかかわらず、観測済みの正例と未ラベルデータのみを用いてベイジアン最適分類器と整合するラベルを割り当てる再ラベル化戦略を開発すること。
再ラベル化されたデータに生じるドメインバイアスを、カーネル平均マッチングを用いて是正し、一般化性能を向上させること。
ハイパーパramータを必要とせず理論的裏付けを持つPU学習手法を構築し、合成および実世界のデータセットで既存手法を上回ること。

提案手法

分類の難易度を測る指標として、ΔP(X) = P(Y=1|X) − P(Y=−1|X) を導入し、値が小さいほどラベル付けが困難であることを示す。
誤ラベル化率 ρ(X,Y) を ΔP(X) の単調減少関数としてモデル化し、後方確率が高い正例がよりラベル付けされやすいと仮定する。
真のラベルが不明な状況下で、観測済みラベル分布を用いて ΔP(X) を間接的に推定するための ΔP̃(X) = P(Ỹ=1|X) − P(Ỹ=−1|X) を用いる。
推定された ΔP(X) を基にベイジアン最適再ラベル化手順を適用し、未ラベル例にラベルを割り当て、最適分類器と整合性を保つ。
ドメインシフトを引き起こすラベル付け不能なサブドメインに対処するため、カーネル平均マッチング（KMM）を用いて再ラベル化データを再重み付けする。
実世界のデータセット処理のため、ドキュメントを32次元のベクトルに埋め込むためにDoc2Vecを採用する。

実験結果

リサーチクエスチョン

RQ1正例がラベル付けされやすさが後方確率に依存するインスタンス依存のラベル付けバイアスを、PU学習でどのようにモデル化できるか？
RQ2真のラベルが入手不可な状況下で、観測済みラベル分布から真の後方確率差 ΔP(X) を推定できるか？
RQ3推定された ΔP(X) を基にしたベイジアン最適再ラベル化戦略が、最適分類器と整合するラベルを生成できるか？
RQ4カーネル平均マッチングは、ラベル付け不能なサブドメインによって生じるドメインバイアスを効果的に是正できるか？
RQ5本手法は、多様なデータ分布において、既存のPU学習手法と比較して精度と頑健性の面で優れているか？

主な発見

合成線形誤ラベル化率データセットにおいて、提案手法PGPUおよびPGPUcvは平均分類精度84.36%を達成し、SVM、Elkan、Natarajan、Liu手法を上回った。
実世界のTCDBデータセットでも優れた性能を示し、合成実験と整合的な結果を得た。これは、本手法が実世界のテキストデータに対しても実用可能であることを確認する。
SVMに元のクリーンデータを用いても、本手法はベースラインを上回った。これは、再重み付けと再ラベル化が一般化性能を向上させることを示している。
誤ラベル化率がインスタンス依存である場合、本手法と他の手法との性能差が顕著に現れ、確率的ギャップモデルの核心仮定が妥当であることを裏付けた。
誤ラベル化率が一定である場合、本手法の性能は低下した。これは、本手法の有効性が誤ラベル化率と確率的ギャップの単調性仮定に依存していることを確認した。
ベイジアン最適再ラベル化プロセスでは、ΔP(X) ∈ (l, 0) に属するサブドメインの例はすべてラベル付けされないため、ドメインバイアスが生じる。KMMはこのバイアスを緩和するが、完全に解消しない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。