QUICK REVIEW

[논문 리뷰] Simplify and Robustify Negative Sampling for Implicit Collaborative Filtering

Jingtao Ding, Yuhan Quan|arXiv (Cornell University)|2020. 09. 07.

Video Surveillance and Tracking Methods참고 문헌 46인용 수 59

한 줄 요약

이 논문은 SRNS를 제시합니다. 이는 암시적 협업 필터링에서 메모리 기반의 분산-주변 부정 샘플링 방법으로, 잘못된 음성(실제로는 음수일 가능성이 있는 데이터)에 대한 강건성을 개선하고 효율성을 높입니다. 합성 및 실제 데이터셋에서 SRNS가 기준선보다 우수함을 보입니다.

ABSTRACT

Negative sampling approaches are prevalent in implicit collaborative filtering for obtaining negative labels from massive unlabeled data. As two major concerns in negative sampling, efficiency and effectiveness are still not fully achieved by recent works that use complicate structures and overlook risk of false negative instances. In this paper, we first provide a novel understanding of negative instances by empirically observing that only a few instances are potentially important for model learning, and false negatives tend to have stable predictions over many training iterations. Above findings motivate us to simplify the model by sampling from designed memory that only stores a few important candidates and, more importantly, tackle the untouched false negative problem by favouring high-variance samples stored in memory, which achieves efficient sampling of true negatives with high-quality. Empirical results on two synthetic datasets and three real-world datasets demonstrate both robustness and superiorities of our negative sampling method.

연구 동기 및 목표

unlabeled 데이터와 잘못된 음성에도 불구하고 암시적 CF에 대한 강건하고 효율적인 부정 샘플링을 동기 부여한다.
높은 후보 부정의 소량 메모리로도 효과적 학습이 충분하다는 것을 보여준다.
점수 기반 메모리 업데이트와 분산 기반 선택을 결합한 두 단계 샘플링 체계를 제안한다.
합성 및 실제 데이터셋에서 SRNS의 강건성과 우수한 성능을 입증한다.

제안 방법

각 사용자 메모리 M_u를 사용해 S1 고-잠재 부정 후보를 저장한다.
M_u를 균일하게 샘플링된 후보들과 병합하고 점수의 소프트맥스(온도 tau)를 통해 S1개의 새로운 하드 네거티브를 도출하여 업데이트한다.
높은 true negative 확률 예측치와 스케일된 분산 항(alpha_t * std)을 더한 분산 기반 샘플링 기준을 도입한다.
분산 기반 샘플링을 점차 강조하기 위해 alpha_t의 워밍업(warm-start) 스케줄을 채택한다.
부트스트래핑(기억화)을 활용해 학습이 진행되면서 잘못된 음수 여부를 식별하고 샘플링을 조정한다.

실험 결과

연구 질문

RQ1메모리 기반 부정 샘플러가 실제 부정의 동적 분포를 효율적으로 포착할 수 있는가?
RQ2잘못된 음수를 완화하기 위해 부정 샘플의 품질을 신뢰성 있게 측정할 수 있는 방법은 무엇인가?
RQ3분산 인지 샘플링 전략이 전통적인 하드 네거티브 또는 균일 샘플링에 비해 강건성과 성능을 향상시키는가?
RQ4샘플링에 분산을 도입하기 위한 유익한 학습 스케줄(워밍-스타트)이 있는가?

주요 결과

Dataset	Method	N@1	N@3	R@3
Movielens-1m	ENMF	0.1846	0.3021	0.3882
Movielens-1m	Uniform	0.1744	0.2846	0.3663
Movielens-1m	NNCF	0.0829	0.1478	0.1971
Movielens-1m	AOBPR	0.1802	0.2905	0.3728
Movielens-1m	IRGAN	0.1755	0.2877	0.3708
Movielens-1m	RNS-AS	0.1823	0.2932	0.3754
Movielens-1m	AdvIR	0.1790	0.2941	0.3792
Movielens-1m	SRNS	0.1933	0.3070	0.3912
Pinterest	ENMF	0.2594	0.4144	0.5284
Pinterest	Uniform	0.2586	0.4136	0.5276
Pinterest	NNCF	0.2292	0.3699	0.4735
Pinterest	AOBPR	0.2596	0.4165	0.5319
Pinterest	IRGAN	0.2587	0.4143	0.5282
Pinterest	RNS-AS	0.2690	0.4233	0.5359
Pinterest	AdvIR	0.2689	0.4235	0.5363
Pinterest	SRNS	0.2891	0.4391	0.5486
Ecommerce	ENMF	0.1317	0.2095	0.2670
Ecommerce	Uniform	0.1265	0.2057	0.2640
Ecommerce	NNCF	0.0833	0.1420	0.1855
Ecommerce	AOBPR	0.1293	0.2108	0.2710
Ecommerce	IRGAN	0.1275	0.2065	0.2648
Ecommerce	RNS-AS	0.1335	0.2131	0.2714
Ecommerce	AdvIR	0.1357	0.2141	0.2719
Ecommerce	SRNS	0.1471	0.2256	0.2833

SRNS는 데이터셋 전반에서 baselines 대비 NDCG@1 및 NDCG@3를 일관되게 향상시킨다.
분산 기반 샘플링은 잘못된 음수에 대한 강건성을 제공하며, 노이즈가 있는 감독 하에서 특히 난이도 기반 전략보다 우수하다.
SRNS는 GAN 기반 부정 샘플링 방법보다 빠르게 수렴하고 더 안정적이다.
SRNS의 개선은 GMF 및 MLP 득점 함수 모두에서 관찰되어 다재다능성을 시사한다.
실제 데이터셋에서 SRNS는 두 번째로 좋은 기준선 대비 NDCG@1에서 최대 8.40% 상대 개선을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.