[논문 리뷰] Close Enough? A Large-Scale Exploration of Non-Experimental Approaches to Advertising Measurement
본 논문은 663건의 Facebook 광고 실험에서 비실험적 인과 방법 두 가지(DML 및 SPSM)를 평가하여 광고로 인한 효과의 상승치를 신뢰할 만큼 재현할 수 있는지 확인한다; 어느 방법도 완전히 성공하지 못했고, DML이 더 나은 성능을 보이지만 편향에서 벗어나지 못한다.
Despite their popularity, randomized controlled trials (RCTs) are not always available for the purposes of advertising measurement. Non-experimental data is thus required. However, Facebook and other ad platforms use complex and evolving processes to select ads for users. Therefore, successful non-experimental approaches need to "undo" this selection. We analyze 663 large-scale experiments at Facebook to investigate whether this is possible with the data typically logged at large ad platforms. With access to over 5,000 user-level features, these data are richer than what most advertisers or their measurement partners can access. We investigate how accurately two non-experimental methods -- double/debiased machine learning (DML) and stratified propensity score matching (SPSM) -- can recover the experimental effects. Although DML performs better than SPSM, neither method performs well, even using flexible deep learning models to implement the propensity and outcome models. The median RCT lifts are 29%, 18%, and 5% for the upper, middle, and lower funnel outcomes, respectively. Using DML (SPSM), the median lift by funnel is 83% (173%), 58% (176%), and 24% (64%), respectively, indicating significant relative measurement errors. We further characterize the circumstances under which each method performs comparatively better. Overall, despite having access to large-scale experiments and rich user-level data, we are unable to reliably estimate an ad campaign's causal effect.
연구 동기 및 목표
- 큰 광고 플랫폼의 비실험적 데이터가 무작위 대조시험(RCT) 없이 인과 광고 효과를 재현할 수 있는지 평가한다.
- 이 설정에서 이중/편향 제거 머신러닝(DML)과 계층화된 성향 점수 매칭(SPSM)을 비교한다.
- 각 방법의 상대적으로 더 잘 작동하거나 더 못 작동하는 조건을 특징지운다.
- 온라인 광고에서 신뢰할 수 있는 인과 추정을 저해하는 데이터 및 플랫폼 한계를 논의한다.
제안 방법
- 다양한 특징 집합과 교차 검증된 직교화(orthogonalization)를 사용하여 인과 효과를 추정하기 위해 이중/편향 제거 머신러닝(DML)을 적용하여 정규화 편향을 줄인다.
- 심층 학습 기반 성향 모델을 사용한 계층화된 성향 점수 매칭(SPSM)을 평가한다.
- 교란되지 않음(unconfoundedness) 가정을 충족시키기 위해 캠페인 및 사용자 수준의 광범위한 특징 집합을 사용한다.
- RCT와의 벤치마크를 위해 대규모 사용자 노출 데이터를 가진 663건의 Facebook 광고 실험을 활용한다.
- 퍼넬별 중위 상승치와 DML과 SPSM 간의 비교 편향을 보고한다.
실험 결과
연구 질문
- RQ1플랫폼 로깅 데이터의 비실험적 방법이 광고 노출 선택을 충분히 되돌려 인과 효과를 회복할 수 있는가?
- RQ2대규모 Facebook 실험에서 DML과 SPSM은 무작위 대조 시험(RCT)에 비해 어떤 성능을 보이는가?
- RQ3어떤 실험 조건(퍼넬 단계, 캠페인 유형에서) 이 방법들이 더 잘 작동하거나 덜 작동하는가?
- RQ4신뢰할 수 있는 비실험적 광고 측정을 위해 어떤 데이터/로깅 개선이 필요한가?
주요 결과
- SPSM은 광범위한 특징과 모델링에도 불구하고 RCT 벤치마크에 비해 성능이 떨어진다.
- DML은 평균적으로 SPSM보다 상향 편향이 덜하지만 잔여 편향이 여전히 상당하다.
- 퍼넬별 RCT의 중위 상승: 상위 29%, 중간 18%, 하위 5%.
- DML(및 SPSM)을 사용한 퍼넬별 중위 상승: 상위 83% (173%), 중간 58% (176%), 하위 24% (64%)로, 큰 상대 측정 오차를 시사한다.
- Prospecting 캠페인과 더 작은 기본 전환율은 비교적 더 나은 비실험적 추정치를 산출하는 경향이 있다.
- 더 큰 샘플 크기, 더 높은 테스트 노출 비율, 더 나은 성향 모델 성능은 비실험적 추정을 개선하지만 여전히 차이가 남는다.
- 전반적으로 이용 가능한 데이터로 비실험적 접근은 인과 광고 효과를 신뢰성 있게 추정하지 못한다; RCT에서의 외생적 변이가 여전히 필요하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.