QUICK REVIEW

[논문 리뷰] Instance-Dependent PU Learning by Bayesian Optimal Relabeling

Fengxiang He, Tongliang Liu|arXiv (Cornell University)|2018. 08. 07.

Machine Learning and Algorithms참고 문헌 40인용 수 29

한 줄 요약

이 논문은 분류 난이도를 측정하는 확률적 간격(probabilistic gap)을 기반으로 한 베이지안 최적 재라벨링을 사용하는 모델 불필요한, 인스턴스에 의존적인 PU 학습 방법을 제안한다. 관측된 레이블로부터 진정한 사후 확률 차이를 추정하고, 도메인 편향을 보정하기 위해 커널 링크드 평균 매칭(Kernel Mean Matching)을 적용함으로써, 초모수 조정 없이도 합성 및 실세계 데이터셋에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

When learning from positive and unlabelled data, it is a strong assumption that the positive observations are randomly sampled from the distribution of $X$ conditional on $Y = 1$, where X stands for the feature and Y the label. Most existing algorithms are optimally designed under the assumption. However, for many real-world applications, the observed positive examples are dependent on the conditional probability $P(Y = 1|X)$ and should be sampled biasedly. In this paper, we assume that a positive example with a higher $P(Y = 1|X)$ is more likely to be labelled and propose a probabilistic-gap based PU learning algorithms. Specifically, by treating the unlabelled data as noisy negative examples, we could automatically label a group positive and negative examples whose labels are identical to the ones assigned by a Bayesian optimal classifier with a consistency guarantee. The relabelled examples have a biased domain, which is remedied by the kernel mean matching technique. The proposed algorithm is model-free and thus do not have any parameters to tune. Experimental results demonstrate that our method works well on both generated and real-world datasets.

연구 동기 및 목표

기존 PU 학습 방법이 모든 양성 예제에 대해 일정한 오라벨링 비율을 가진다는 가정의 한계를 해결하기 위해.
더 어려운 분류 예제(낮은 확률적 간격을 가진)일수록 레이블링 가능성이 낮다는 인스턴스에 의존적인 레이블링 편향을 모델링하기 위해.
진정한 레이블이 없이도 관측된 양성 및 무레이블 데이터만을 사용하여 베이지안 최적 분류기와 일관된 레이블을 부여하는 재라벨링 전략을 개발하기 위해.
재라벨링된 데이터에서 발생하는 도메인 편향을 보정하기 위해 커널 링크드 평균 매칭(KMM)을 활용하여 일반화 성능을 향상시키기 위해.
초모수가 없는, 이론적으로 타당한 PU 학습 방법을 개발하여 합성 및 실세계 데이터셋에서 기존 방법들을 능가하는 성능을 달성하기 위해.

제안 방법

분류 난이도를 측정하기 위해 확률적 간격 ΔP(X) = P(Y=1|X) − P(Y=−1|X)를 도입하며, 낮은 값일수록 더 높은 레이블링 난이도를 의미한다.
ΔP(X)의 단조 감소 함수로 오라벨링 비율 ρ(X,Y)를 모델링하며, 더 높은 확률의 양성 예제일수록 레이블링 가능성이 높다고 가정한다.
관측된 레이블 분포를 이용해 ΔP(X)를 간접적으로 추정하기 위해 ΔP̃(X) = P(Ỹ=1|X) − P(Ỹ=−1|X)를 사용한다.
추정된 ΔP(X)를 기반으로 베이지안 최적 재라벨링 절차를 적용하여 무레이블 예제에 레이블을 할당함으로써 최적 분류기와의 일관성을 확보한다.
재라벨링된 데이터에서 발생하는 도메인 이동을 보정하기 위해 커널 링크드 평균 매칭(KMM)을 사용하여 재가중치를 적용한다.
실세계 데이터셋 처리를 위해 문서를 32차원 벡터로 임bedding하기 위해 Doc2Vec를 활용한다.

실험 결과

연구 질문

RQ1어떻게 양성 예제의 레이블링 가능성이 그 사후 확률에 따라 달라지는 인스턴스에 의존적인 레이블링 편향을 PU 학습에서 모델링할 수 있는가?
RQ2진정한 레이블에 접근할 수 없을 때 관측된 레이블 분포로부터 진정한 사후 확률 차이 ΔP(X)를 추정할 수 있는가?
RQ3추정된 ΔP(X)를 기반으로 한 베이지안 최적 재라벨링 전략이 최적 분류기와 일관된 레이블을 생성하는가?
RQ4커널 링크드 평균 매칭(KMM)은 PU 학습에서 레이블이 불가능한 서브도메인으로 인해 발생하는 도메인 편향을 효과적으로 보정할 수 있는가?
RQ5제안된 방법은 다양한 데이터 분포에서 기존 PU 학습 방법들과 비교해 정확도와 내구성 측면에서 어떻게 성능을 발휘하는가?

주요 결과

합성 선형 오라벨링 비율 데이터셋에서 제안된 PGPU 및 PGPUcv 방법은 평균 분류 정확도 84.36%를 기록하여 SVM, Elkan, Natarajan, Liu 방법을 모두 능가한다.
실세계 TCDB 데이터셋에서의 성능도 뛰어나 합성 실험 결과와 일관되며, 실세계 텍스트 데이터에 대한 적용 가능성과 타당성을 확인한다.
원본 청소된 데이터를 SVM에 사용할 때조차도 기준 방법들을 능가함을 확인하여, 재가중치와 재라벨링가 일반화 성능 향상에 기여함을 시사한다.
오라벨링 비율이 인스턴스에 의존할 경우 제안된 방법과 다른 방법 간의 성능 격차가 가장 두드러지며, 이는 확률적 간격 모델의 核심 가정이 타당함을 검증한다.
오라벨링 비율이 일정할 경우 성능 저하가 발생함을 확인하여, 본 방법의 효과성이 오라벨링 비율과 확률적 간격 사이의 단조성 가정에 의존함을 확인한다.
베이지안 최적 재라벨링 과정은 ΔP(X) ∈ (l, 0)에 속하는 서브도메인의 예제들을 모두 레이블링하지 않으며, 이로 인해 도메인 편향이 발생한다. KMM는 이를 보완하지만 완전히 해결하지 못한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.