QUICK REVIEW

[논문 리뷰] Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction

Kun Gai, Xiaoqiang Zhu|arXiv (Cornell University)|2017. 04. 18.

Face and Expression Recognition참고 문헌 13인용 수 62

한 줄 요약

대규모 희소 데이터에서 CTR 예측을 위한 Large Scale Piece-wise Linear Model(LS-PLM)을 도입하고, 비볼록 비평활 최적화 및 산업 규모의 확장성과 희소성을 달성하는 분산 학습 시스템을 제시한다.

ABSTRACT

CTR prediction in real-world business is a difficult machine learning problem with large scale nonlinear sparse data. In this paper, we introduce an industrial strength solution with model named Large Scale Piece-wise Linear Model (LS-PLM). We formulate the learning problem with $L_1$ and $L_{2,1}$ regularizers, leading to a non-convex and non-smooth optimization problem. Then, we propose a novel algorithm to solve it efficiently, based on directional derivatives and quasi-Newton method. In addition, we design a distributed system which can run on hundreds of machines parallel and provides us with the industrial scalability. LS-PLM model can capture nonlinear patterns from massive sparse data, saving us from heavy feature engineering jobs. Since 2012, LS-PLM has become the main CTR prediction model in Alibaba's online display advertising system, serving hundreds of millions users every day.

연구 동기 및 목표

대규모 희소 데이터에서 클릭률 예측의 비선형적이고 고차원적인 특성을 다룬다.
특성 공간을 영역으로 분할하고 각 영역에서 선형 모델을 피팅하는 piecewise linear 모델을 제안한다.
비볼록, 비평활 정규화 목표를 다루기 위해 방향 도함수 및 준-Newton 스텝을 활용한 효율적 최적화 방법을 개발한다.
수백 대의 머신과 온라인 광고 워크로드에 적합한 분산식 확장 가능한 학습 시스템을 설계한다.
산업계 CTR 환경에서 전통적 선형 모델 대비 희소성과 성능 향상을 입증한다.

제안 방법

p(y=1|x)=g( sum_j sigma(u_j^T x) * eta(w_j^T x) )와 같은 혼합-유사(piecewise) 선형 모델을 정의하며, 일반적인 구현으로 sigma에 softmax를, eta에 sigmoid를 사용한다.
L2,1 및 L1 정규화를 통해 특징 선택 및 희소성을 촉진하는 모델 정규화를 적용하여 비볼록, 비평활 목적 함수를 도출한다.
(a) 방향 도함수를 사용한 하강 방향 결정, (b) orthant-제약을 가진 제한된 메모리 LBFGS 업데이트, (c) 부호/방향 제약이 있는 투영 선 탐색을 적용하는 최적화 알고리즘을 개발한다.
워커가 로컬 계산을 수행하고 서버가 손실과 방향을 집계하는 분산형, 파라미터 서버 유사 아키텍처를 구현하여 데이터- 및 모델 병렬화를 산업 규모 데이터에 적용한다.
노출 광고의 다수 샘플 간 공통 특징을 활용하는 일반적인 특징 트릭으로 메모리를 줄이고 학습 속도를 높이고 특징 차원을 바꾸지 않는다.
대규모 Alibaba CTR 데이터 세트에서 로지스틱 회귀와 비교하여 LS-PLM의 성능, 분할 수, 정규화 효과 및 공통 특징 최적화를 평가한다.

실험 결과

연구 질문

RQ1대규모 희소 데이터에서 영역별 선형 예측기를 사용하는 piecewise 선형 모델이 큰 비선형 CTR 패턴을 특징 엔지니어링 없이 포착할 수 있는가?
RQ2L1 및 L2,1 정규화가 LS-PLM의 희소성, 특징 선택 및 예측 성능에 어떤 영향을 미치는가?
RQ3LBFGS와 orthant 제약을 이용한 방향 도함수 기반 최적화가 산업 규모 데이터에서 LS-PLM을 효율적으로 학습시키는가?
RQ4분산 훈련 시스템과 공통 특징 트릭이 온라인 광고 워크로드에서 LS-PLM의 확장성 및 학습 효율성을 어떻게 개선하는가?
RQ5LS-PLM을 활용한 대규모 CTR 예측에서 표준 LR 대비 어떤 이득이 있는가?

주요 결과

LS-PLM은 특징 공간을 m개의 영역으로 나누고 각 영역에 선형 모델을 피팅하여 비선형 패턴을 모델링할 수 있다.
L2,1 및 L1 정규화는 강한 희소성을 유도하여 비제로 매개변수를 크게 감소시키면서 AUC를 개선한다.
공통 특징 트릭은 메모리 사용을 실질적으로 최소 1/3 수준으로 줄이고 학습 속도를 약 12배 향상시키며 특징 차원을 바꾸지 않는다.
LS-PLM은 Alibaba의 7개 모바일 디스플레이 CTR 데이터셋에서 로지스틱 회귀보다 일관되게 AUC를 상회하며 상당한 정확도 향상을 보인다.
실험에서 관찰된 최적 매개변수는 division m=12 및 정규화 값 beta=1과 lambda=1로, 높은 성능과 강한 희소성을 달성한다.
분산식 병렬 구현은 수십억 샘플 규모의 학습을 수백 대의 머신에서 가능하게 하여 산업적 배치에 적합하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.