[논문 리뷰] Budget Optimization for Sponsored Search: Censored Learning in MDPs
이 논문은 예측 가능한 광고 예산 최적화 문제를 예산 제약으로 인해 부분적으로 관측되는 클릭률을 고려한 캄프티드 마코프 결정 과정(censored Markov Decision Process, MDP)으로 공식화한다. 클릭률을 캄프티드 데이터에서 추정하기 위해 카프만-마이어(Kaplan-Meier) 추정기를 사용하는 학습 알고리즘을 제안하며, 실제 Microsoft adCenter 데이터 기반으로 빠른 수렴 속도를 보이며 최적 성능에 도달함을 입증한다.
We consider the budget optimization problem faced by an advertiser participating in repeated sponsored search auctions, seeking to maximize the number of clicks attained under that budget. We cast the budget optimization problem as a Markov Decision Process (MDP) with censored observations, and propose a learning algorithm based on the wellknown Kaplan-Meier or product-limit estimator. We validate the performance of this algorithm by comparing it to several others on a large set of search auction data from Microsoft adCenter, demonstrating fast convergence to optimal performance.
연구 동기 및 목표
- 예산 제약 조건 하에서 반복적인 스폰서드 서치 광고 입찰에서 광고 지출을 최적화하는 과제를 해결하기 위해.
- 제한된 지출으로 인해 관측이 제한된 상태에서 예산 최적화 문제를 마코프 결정 과정(MDP)으로 모델링하기 위해.
- 부분적으로 관측된 데이터를 효과적으로 다룰 수 있는 학습 알고리즘을 개발하기 위해.
- 기존의 접근 방식과 비교하기 위해 실제 광고 입찰 데이터를 기반으로 제안된 방법을 검증하기 위해.
제안 방법
- 예산 제약으로 인해 전체 결과가 아닌 관측된 클릭 수만 제공되는 캄프티드 MDP로 예산 최적화 문제를 공식화한다.
- 클릭률을 캄프티드 데이터에서 추정하기 위해 카프만-마이어(제품한계) 추정기를 적용하여 편향 없는 학습을 가능하게 한다.
- 각 입찰 라운드에서 캄프티드 피드백을 기반으로 행동-가치 추정치를 업데이트하는 강화학습 프레임워크를 사용한다.
- 부분 관측된 MDP 환경에서의 데이터를 처리하기 위해 카프만-마이어 추정기를 Q-학습 스타일 알고리즘에 통합한다.
- 클릭률에 대한 특정 분포를 가정하지 않는 비모수적 추정 기법을 사용한다.
- 기존의 기준 알고리즘과의 성능 비교를 위해 실제 Microsoft adCenter 입찰 로그를 기반으로 방법을 검증한다.
실험 결과
연구 질문
- RQ1예산 제약으로 인해 부분적인 피드백(캄프티드 데이터)만 제공될 때 광고주가 스폰서드 서치 광고 입찰에서 최적의 입찰 전략을 어떻게 학습할 수 있는가?
- RQ2캄프티드 관측이 있는 MDP 프레임워크에서 카프만-마이어 추정기가 강화학습 환경에 효과적으로 적용될 수 있는가?
- RQ3제안된 캄프티드 학습 알고리즘이 표준 예산 최적화 방법보다 더 빠르게 수렴하고 더 뛰어난 성능을 내는가?
- RQ4제한적이고 노이즈가 많은 피드백이 있는 실세계 광고 입찰 데이터에서 이 알고리즘은 실제로 어떻게 성능을 내는가?
주요 결과
- 제안된 알고리즘은 실제 Microsoft adCenter 데이터 기반으로 근사 최적 성능에 매우 빠르게 수렴한다.
- 카프만-마이어 추정기를 사용함으로써 예산 제약으로 인한 관측 제약에도 불구하고 클릭률을 정확하게 추정할 수 있다.
- 동일한 예산 조건 하에서 총 클릭 수 측면에서 기존의 기준 알고리즘보다 성능이 뛰어나다.
- 제한된 피드백과 높은 변동성이 있는 입찰 결과 조건에서도 학습 과정에서 뛰어난 안정성과 강건성을 보였다.
- 실험 결과, 카프만-마이어를 통한 캄프티드 학습이 표준 Q-학습보다 더 나은 예산 활용도를 보임을 확인하였다.
- 부분 관측된 데이터 조건에서도 탐색과 이용의 균형을 효과적으로 유지함으로써 장기적인 클릭 수 최적화를 향상시켰다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.