[논문 리뷰] Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction
대규모 희소 데이터에서 CTR 예측을 위한 Large Scale Piece-wise Linear Model(LS-PLM)을 도입하고, 비볼록 비평활 최적화 및 산업 규모의 확장성과 희소성을 달성하는 분산 학습 시스템을 제시한다.
CTR prediction in real-world business is a difficult machine learning problem with large scale nonlinear sparse data. In this paper, we introduce an industrial strength solution with model named Large Scale Piece-wise Linear Model (LS-PLM). We formulate the learning problem with $L_1$ and $L_{2,1}$ regularizers, leading to a non-convex and non-smooth optimization problem. Then, we propose a novel algorithm to solve it efficiently, based on directional derivatives and quasi-Newton method. In addition, we design a distributed system which can run on hundreds of machines parallel and provides us with the industrial scalability. LS-PLM model can capture nonlinear patterns from massive sparse data, saving us from heavy feature engineering jobs. Since 2012, LS-PLM has become the main CTR prediction model in Alibaba's online display advertising system, serving hundreds of millions users every day.
연구 동기 및 목표
- 대규모 희소 데이터에서 클릭률 예측의 비선형적이고 고차원적인 특성을 다룬다.
- 특성 공간을 영역으로 분할하고 각 영역에서 선형 모델을 피팅하는 piecewise linear 모델을 제안한다.
- 비볼록, 비평활 정규화 목표를 다루기 위해 방향 도함수 및 준-Newton 스텝을 활용한 효율적 최적화 방법을 개발한다.
- 수백 대의 머신과 온라인 광고 워크로드에 적합한 분산식 확장 가능한 학습 시스템을 설계한다.
- 산업계 CTR 환경에서 전통적 선형 모델 대비 희소성과 성능 향상을 입증한다.
제안 방법
- p(y=1|x)=g( sum_j sigma(u_j^T x) * eta(w_j^T x) )와 같은 혼합-유사(piecewise) 선형 모델을 정의하며, 일반적인 구현으로 sigma에 softmax를, eta에 sigmoid를 사용한다.
- L2,1 및 L1 정규화를 통해 특징 선택 및 희소성을 촉진하는 모델 정규화를 적용하여 비볼록, 비평활 목적 함수를 도출한다.
- (a) 방향 도함수를 사용한 하강 방향 결정, (b) orthant-제약을 가진 제한된 메모리 LBFGS 업데이트, (c) 부호/방향 제약이 있는 투영 선 탐색을 적용하는 최적화 알고리즘을 개발한다.
- 워커가 로컬 계산을 수행하고 서버가 손실과 방향을 집계하는 분산형, 파라미터 서버 유사 아키텍처를 구현하여 데이터- 및 모델 병렬화를 산업 규모 데이터에 적용한다.
- 노출 광고의 다수 샘플 간 공통 특징을 활용하는 일반적인 특징 트릭으로 메모리를 줄이고 학습 속도를 높이고 특징 차원을 바꾸지 않는다.
- 대규모 Alibaba CTR 데이터 세트에서 로지스틱 회귀와 비교하여 LS-PLM의 성능, 분할 수, 정규화 효과 및 공통 특징 최적화를 평가한다.
실험 결과
연구 질문
- RQ1대규모 희소 데이터에서 영역별 선형 예측기를 사용하는 piecewise 선형 모델이 큰 비선형 CTR 패턴을 특징 엔지니어링 없이 포착할 수 있는가?
- RQ2L1 및 L2,1 정규화가 LS-PLM의 희소성, 특징 선택 및 예측 성능에 어떤 영향을 미치는가?
- RQ3LBFGS와 orthant 제약을 이용한 방향 도함수 기반 최적화가 산업 규모 데이터에서 LS-PLM을 효율적으로 학습시키는가?
- RQ4분산 훈련 시스템과 공통 특징 트릭이 온라인 광고 워크로드에서 LS-PLM의 확장성 및 학습 효율성을 어떻게 개선하는가?
- RQ5LS-PLM을 활용한 대규모 CTR 예측에서 표준 LR 대비 어떤 이득이 있는가?
주요 결과
- LS-PLM은 특징 공간을 m개의 영역으로 나누고 각 영역에 선형 모델을 피팅하여 비선형 패턴을 모델링할 수 있다.
- L2,1 및 L1 정규화는 강한 희소성을 유도하여 비제로 매개변수를 크게 감소시키면서 AUC를 개선한다.
- 공통 특징 트릭은 메모리 사용을 실질적으로 최소 1/3 수준으로 줄이고 학습 속도를 약 12배 향상시키며 특징 차원을 바꾸지 않는다.
- LS-PLM은 Alibaba의 7개 모바일 디스플레이 CTR 데이터셋에서 로지스틱 회귀보다 일관되게 AUC를 상회하며 상당한 정확도 향상을 보인다.
- 실험에서 관찰된 최적 매개변수는 division m=12 및 정규화 값 beta=1과 lambda=1로, 높은 성능과 강한 희소성을 달성한다.
- 분산식 병렬 구현은 수십억 샘플 규모의 학습을 수백 대의 머신에서 가능하게 하여 산업적 배치에 적합하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.