[논문 리뷰] Distribution-Aware End-to-End Embedding for Streaming Numerical Features in Click-Through Rate Prediction
DAES는 CTR 모델에서 스트리밍 수치 특징을 위한 분포 인식 엔드투엔드 임베딩을 도입한다. 저장소 기반 분위수 추정과 필드 인식 모듈화를 활용하여 이전 방법들에 비해 큰 향상을 보였고, 대규모 플랫폼에 배포되었다.
This paper explores effective numerical feature embedding for Click-Through Rate prediction in streaming environments. Conventional static binning methods rely on offline statistics of numerical distributions; however, this inherently two-stage process often triggers semantic drift during bin boundary updates. While neural embedding methods enable end-to-end learning, they often discard explicit distributional information. Integrating such information end-to-end is challenging because streaming features often violate the i.i.d. assumption, precluding unbiased estimation of the population distribution via the expectation of order statistics. Furthermore, the critical context dependency of numerical distributions is often neglected. To this end, we propose DAES, an end-to-end framework designed to tackle numerical feature embedding in streaming training scenarios by integrating distributional information with an adaptive modulation mechanism. Specifically, we introduce an efficient reservoir-sampling-based distribution estimation method and two field-aware distribution modulation strategies to capture streaming distributions and field-dependent semantics. DAES significantly outperforms existing approaches as demonstrated by extensive offline and online experiments and has been fully deployed on a leading short-video platform with hundreds of millions of daily active users.
연구 동기 및 목표
- 스트리밍 환경에서 분포가 시간이 지남에 따라 변화하는 CTR를 위한 수치 특징 임베딩의 필요성을 동기화한다.
- 스트리밍 데이터를 학습하는 동안 분포 정보를 보존하는 엔드투엔드 프레임워크를 제안한다.
- 비 i.i.d. 스트리밍 데이터와 수치 특징의 맥락 의의 의미를 다룬다.
- 전처리 과정을 모델 학습에 통합해 엔지니어링 복잡성을 줄인다.
- 오프라인 벤치마크와 실제 배포를 통해 효과를 입증한다.
제안 방법
- DAES를 제안한다. 이는 분포를 분위수 공간에서 모델링하여 수치 특징을 임베딩하는 엔드투엔드 프레임워크이다.
- Jump Reservoir Sampling (JRS)을 개발하여 메모리 제약 하에서 전역 온라인 분위수를 효율적으로 추정한다.
- 입력을 분포 인식 좌표로 매핑하기 위해 분위 공간 보간을 사용한다.
- 필드 임베딩에 조건화된 필드 인식 모듀레이션(게이팅 또는 어파인)을 적용해 맥락별 가중치를 생성한다.
- 메타 임베딩을 통해 최종 수치 특징 표현을 집계한다.
- 배포를 포함한 표준 CTR 아키텍처에 분포 인식 표현을 엔드투엔드 학습에 통합한다.
실험 결과
연구 질문
- RQ1메모리 제약이 있는 스트리밍 수치 특징에서 분포 정보를 효율적으로 추정하려면 어떻게 해야 하는가?
- RQ2질문-응답 공간의 보간 방식이나 오프라인 통계 접근 방식보다 분위 공간 인코딩이 스트리밍 CTR의 분포 특성을 더 잘 보존하는가?
- RQ3맥락 정보를 포함시켜 의미적 편이를 피하면서 매개변수 복잡도가 과도하게 증가하지 않도록 어떻게 필드 컨텍스트를 도입할 수 있는가?
- RQ4DAES의 분포 인식 임베딩이 기존의 정적, 보간식, 또는 순진한 신경 임베딩과 비교해 CTR 성능을 개선하는가?
주요 결과
- DAES는 여러 CTR 백본과 데이터셋에서 오프라인 평가에서 최첨단 수치 특징 임베딩을 크게 능가한다.
- Jump Reservoir Sampling은 메모리 한계 하에서 온라인 분위수 추정을 효율적이고 일관성 있게 제공한다.
- 분포 공간 보간과 필드 인식 모듀레이션은 값 공간이나 오프라인 통계 접근 방식보다 분포적 맥락 의미와 맥락 의존적 의미를 더 효과적으로 포착한다.
- 두 가지 필드 인식 모듈레이션 전략(게이팅 및 어파인 변환)은 하위 모집단별 분포에 대한 적응성을 향상시킨다.
- DAES는 강력한 온라인 성능을 달성했으며, 수요일에서 수백만의 DAU를 서비스하는 플랫폼에 배포되었다는 점이 보고되어 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.