[논문 리뷰] Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate
ESMM 모델은 전체 인상 공간에서 CTR과 CTCVR를 예측하고 이들의 곱으로 CVR를 도출하여 포스트 클릭 CVR를 추정하며, 샘플 선택 편향 및 데이터 희소성을 해결하고 작업 간 임베딩 공유; Taobao 데이터에서 baselines 대비 CVR/CTCVR AUC를 크게 향상시킨다.
Estimating post-click conversion rate (CVR) accurately is crucial for ranking systems in industrial applications such as recommendation and advertising. Conventional CVR modeling applies popular deep learning methods and achieves state-of-the-art performance. However it encounters several task-specific problems in practice, making CVR modeling challenging. For example, conventional CVR models are trained with samples of clicked impressions while utilized to make inference on the entire space with samples of all impressions. This causes a sample selection bias problem. Besides, there exists an extreme data sparsity problem, making the model fitting rather difficult. In this paper, we model CVR in a brand-new perspective by making good use of sequential pattern of user actions, i.e., impression -> click -> conversion. The proposed Entire Space Multi-task Model (ESMM) can eliminate the two problems simultaneously by i) modeling CVR directly over the entire space, ii) employing a feature representation transfer learning strategy. Experiments on dataset gathered from Taobao's recommender system demonstrate that ESMM significantly outperforms competitive methods. We also release a sampling version of this dataset to enable future research. To the best of our knowledge, this is the first public dataset which contains samples with sequential dependence of click and conversion labels for CVR modeling.
연구 동기 및 목표
- CVR 모델링에서 샘플 선택 편향을 전체 공간에서 추정하여 해결한다.
- 더 풍부한 CTR 데이터로 표현 학습을 전이하여 CVR의 데이터 희소성을 완화한다.
- 노출 -> 클릭 -> 전환의 순차적 사용자 행동 패턴을 활용해 CVR 추정을 개선한다.
- CTR, CVR, CTCVR를 공동 모델링하는 멀티태스크 프레임워크를 도입해 행동 시퀀스 전반에 걸친 일관된 추론을 가능하게 한다.
제안 방법
- 임베딩 표현을 공유하는 두 개의 주요 서브 네트워크로 CVR, CTR, CTCVR를 모델링한다.
- 전체 공간에서 pCTR 및 pCTCVR를 직접 예측하고, pCVR은 pCTR와 pCTCVR의 곱으로부터 도출한다(pCTCVR = pCTR * pCVR).
- 모든 인상에 대해 계산된 CTR 및 CTCVR 항을 포함하는 공동 손실로 학습한다(클릭된 샘플에 대한 CVR 손실은 없음).
- 풍부한 CTR 데이터로부터 전이 학습을 가능하게 하도록 CVR 네트워크와 CTR 네트워크 간 임베딩 파라미터를 공유한다.
- DIVISION 스타일의 접근에서 발생하는 수치 불안정을 피하기 위해 곱 형태를 사용한다.
- 선택적으로 CTCVR 출력은 CTR 네트워크와 CVR 네트워크 출력의 곱이다.
실험 결과
연구 질문
- RQ1ESMM은 전체 공간에서 모델링함으로써 CVR의 샘플 선택 편향을 제거할 수 있는가?
- RQ2CTR과 CVR 네트워크 간 임베딩 공유 및 순차 행동 정보를 사용하면 데이터 희소성 하에서 CVR 추정이 개선되는가?
- RQ3ESMM은 전체 인상 공간에서의 예측 성능 측면에서 기존 CVR 모델 및 나눗셈 기반 접근과 어떻게 비교되는가?
- RQ4실 산업 규모 데이터에서 CVR 및 CT-CVR 태스크에 대해 ESMM이 얻는 실증적 이득은 무엇인가?
주요 결과
| 모델 | AUC on CVR task (mean ± std) | AUC on CTCVR task (mean ± std) |
|---|---|---|
| BASE | 66.00 ± 0.37 | 62.07 ± 0.45 |
| AMAN | 65.21 ± 0.59 | 63.53 ± 0.57 |
| OVERSAMPLING | 67.18 ± 0.32 | 63.05 ± 0.48 |
| UNBIAS | 66.65 ± 0.28 | 63.56 ± 0.70 |
| DIVISION | 67.56 ± 0.48 | 63.62 ± 0.09 |
| ESMM-NS | 68.25 ± 0.44 | 64.44 ± 0.62 |
| ESMM | 68.56 ± 0.37 | 65.32 ± 0.49 |
- ESMM은 공개 데이터셋에서 CVR 및 CTCVR 태스크 모두에서 베이스라인을 크게 능가하며, 가장 큰 이득은 CTCVR에서 관측된다.
- Public Dataset에서 ESMM은 BASE 대비 CVR에서 2.56%의 절대 AUC 이득, CTCVR에서 3.25%의 절대 이득을 달성한다.
- ESMM-NS(공유 임베딩 변형)는 이미 BASE를 능가하고, ESMM은 순차 행동 구조와 전이 학습을 활용해 ESMM-NS를 추가로 개선한다.
- Product Dataset(8.9B 샘플)에서 ESMM은 전체 데이터로 학습할 때 다양한 샘플링 비율에서도 경쟁자를 지속적으로 능가하며, BASE 대비 CVR에서 2.18%, CTCVR에서 2.32%의 절대 AUC 이득을 얻는다.
- pCVR을 pCTR 및 pCTCVR로 나누고 공동 학습 없이도 수치적 불안정이 발생할 수 있는데, ESMM은 곱 연산 형태를 사용해 이를 완화한다.
- 전체 공간 학습 및 임베딩 공유를 사용하면 풍부한 CTR 데이터로부터 CVR 데이터의 희소성을 완화하는 효과적인 학습이 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.