[논문 리뷰] Contrastive Learning for Debiased Candidate Generation at Scale.
CLRec는 대규모 후보 생성에서 노출 편향을 줄이기 위해 대조 학습 프레임워크를 제안하며, 대조 손실과 고정 크기의 큐를 통해 역 확률 가중치를 활용하여 효율적인 부정 샘플링을 실현한다. 모바일 타오바오에 구현된 결과, 4개월간의 A/B 테스트에서 아이템 노출의 매튜 효과가 크게 감소하였다.
Deep candidate generation (DCG) that narrows down the collection of relevant items from billions to hundreds via representation learning is essential to large-scale recommender systems. Standard approaches approximate maximum likelihood estimation (MLE) through sampling for better scalability and address the problem of DCG in a way similar to language modeling. However, live recommender systems face severe unfairness of exposure with a vocabulary several orders of magnitude larger than that of natural language, implying that (1) MLE will preserve and even exacerbate the exposure bias in the long run in order to faithfully fit the observed samples, and (2) suboptimal sampling and inadequate use of item features can lead to inferior representations for the unfairly ignored items. In this paper, we introduce CLRec, a Contrastive Learning paradigm that has been successfully deployed in a real-world massive recommender system, to alleviate exposure bias in DCG. We theoretically prove that a popular choice of contrastive loss is equivalently reducing the exposure bias via inverse propensity scoring, which provides a new perspective on the effectiveness of contrastive learning. We further employ a fixed-size queue to store the items' representations computed in previously processed batches, and use the queue to serve as an effective sampler of negative examples. This queue-based design provides great efficiency in incorporating rich features of the thousand negative items per batch thanks to computation reuse. Extensive offline analyses and four-month online A/B tests in Mobile Taobao demonstrate substantial improvement, including a dramatic reduction in the Matthew effect.
연구 동기 및 목표
- 대규모 추천 시스템에서 자연어보다 어휘 크기가 수 개 차수만큼 큰 경우에 발생하는 심각한 노출 편향을 해결하기 위해.
- 부적절한 샘플링과 잘 활용되지 않는 아이템 특징이 드물게 노출되는 아이템의 표현 학습에 악영향을 미치는 것을 완화하기 위해.
- 학습 효율성을 해치지 않으면서 공정성과 표현 품질을 향상시키는 효율적이고 확장 가능한 대조 학습 방법을 설계하기 위해.
- 대조 학습이 역 확률 가중치를 통해 노출 편향을 줄이는 데 효과적인 이유를 이론적으로 정당화하기 위해.
- 실제로 모바일 타오바오에서 4개월간의 온라인 A/B 테스트를 통해 방법의 유효성을 검증하기 위해.
제안 방법
- CLRec는 대조 손실 함수를 사용하는 대조 학습 파라다임을 적용하며, 이는 역 확률 가중치를 통한 노출 편향 최소화와 이론적으로 동치임을 보여준다.
- 고정 크기의 큐는 이전에 처리된 배치에서 온 아이템 표현을 저장하며, 동적으로도 효율적인 부정 샘플의 소스로 기능한다.
- 큐를 통해 계산 재사용이 가능해져, 최대 1,000개의 부정 아이템에 대해 풍부한 특징 통합을 최소한의 오버헤드로 수행할 수 있다.
- 표현 학습을 활용하여 긍정 및 부정 아이템 모두의 고품질 임베딩을 생성함으로써, 후보 스코링의 공정성을 향상시킨다.
- 확장성 고려한 프레임워크로, 모바일 타오바오와 같은 생산 규모의 시스템에서 실시간 학습 및 추론을 지원하도록 설계되었다.
- 대조 목표는 긍정적으로 상호작용한 아이템의 표현을 임베딩 공간에서 가까이 유지하면서, 부정 아이템의 표현은 서로 멀리 떨어지게 한다.
실험 결과
연구 질문
- RQ1어떻게 대규모 어휘를 가진 대규모 후보 생성에서 대조 학습을 효과적으로 적용하여 노출 편향을 줄일 수 있는가?
- RQ2대조 학습과 역 확률 가중치 사이의 이론적 관계는 노출 편향 완화에 어떻게 기여하는가?
- RQ3고정 크기의 큐를 어떻게 사용하여 성능 저하 없이 대규모에서 효율적이고 효과적인 부정 아이템 샘플링을 수행할 수 있는가?
- RQ4CLRec는 기존의 MLE 기반 DCG 방법에 비해 아이템 노출의 매튜 효과를 어느 정도 감소시키는가?
- RQ5제안된 방법은 계산 효율성을 유지하면서 온라인 추천 성능 향상에 측정 가능한 기여를 할 수 있는가?
주요 결과
- CLRec에서 사용된 대조 손실은 이론적으로 역 확률 가중치 적용과 동치이며, 노출 편향 감소에 효과적인 이유를 체계적으로 정당화한다.
- 큐 기반의 부정 샘플링 메커니즘은 효율적인 계산 재사용을 가능하게 하여, 최대 1,000개의 부정 아이템에 대해 최소한의 오버헤드로 풍부한 특징 통합을 수행할 수 있다.
- 오프라인 분석 결과, 드물게 노출되는 아이템의 표현 품질이 향상되어 아이템 간 임베딩 정확도의 격차가 감소함을 확인하였다.
- 모바일 타오바오에서 수행된 4개월간의 온라인 A/B 테스트 결과, 매튜 효과가 상당히 감소하여 더 공정한 노출 분포가 실현됨을 입증하였다.
- CLRec는 추천 성능 향상에 측정 가능한 기여를 하였으며, 실전 배포 환경에서의 효과성을 확인하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.