Skip to main content
QUICK REVIEW

[논문 리뷰] Off-policy evaluation for slate recommendation

Adith Swaminathan, Akshay Krishnamurthy|arXiv (Cornell University)|2016. 05. 16.
Advanced Bandit Algorithms Research참고 문헌 28인용 수 39
한 줄 요약

이 논문은 슬레이트 추천에서 오프-정책 평가를 위해 의사역행렬 추정기(PI)를 제안한다. 행동 수준의 보상에 대한 선형성 가정을 활용하여 전 페이지 메트릭인 NDCG와 ERR와 같은 정확한, 저자료 기반의 추정을 가능하게 한다. 이 방법은 역확률 스코어링(IPS)에 비해 표본 복잡도를 기하급수적으로 감소시키며, 실제 검색 데이터에서 비모수적 및 비편향 기반 보조 모델보다 뛰어난 성능을 보이며, 최소한의 A/B 테스트로 효율적인 정책 최적화를 가능하게 한다.

ABSTRACT

This paper studies the evaluation of policies that recommend an ordered set of items (e.g., a ranking) based on some context---a common scenario in web search, ads, and recommendation. We build on techniques from combinatorial bandits to introduce a new practical estimator that uses logged data to estimate a policy's performance. A thorough empirical evaluation on real-world data reveals that our estimator is accurate in a variety of settings, including as a subroutine in a learning-to-rank task, where it achieves competitive performance. We derive conditions under which our estimator is unbiased---these conditions are weaker than prior heuristics for slate evaluation---and experimentally demonstrate a smaller bias than parametric approaches, even when these conditions are violated. Finally, our theory and experiments also show exponential savings in the amount of required data compared with general unbiased estimators.

연구 동기 및 목표

  • 목표 정책이 로깅 정책과 크게 다를 때 로깅된 데이터를 사용하여 전체 페이지 추천 정책을 평가하는 데 도전하는 것.
  • 조합적 슬레이트 환경에서 전통적인 역확률 스코어링(IPS) 추정기의 높은 데이터 요구량을 줄이는 것.
  • 선형성 가정이 위반되더라도 비모수적 모델보다 훨씬 낮은 편향을 유지하는 방법을 개발하는 것.
  • 종단간 랭킹 학습을 위한 엔드 투 엔드 학습을 위해 PI 추정기를 통해 행동 수준의 보상을 보정함으로써 효율적인 오프-정책 최적화를 가능하게 하는 것.
  • 다양한 슬레이트 메트릭을 가진 실제 검색 엔진 데이터셋에서 실용성과 강건성을 입증하는 것.

제안 방법

  • 조합적 밴딧 이론에서 유도된 의사역행렬 추정기(PI)를 제안하며, 슬레이트 추천에서 오프-정책 평가에 적합하게 조정한다.
  • 약한 선형성 가정을 도입: 슬레이트 수준의 보상은 행동 간에 가산적으로 분해되지만, 개별 행동 수상은 관측되지 않는다.
  • 로깅 정책의 로깅된 데이터를 사용하여 선택 확률의 행렬 역행렬(의사역행렬)을 통해 목표 정책의 기대 보상을 추정한다.
  • 각 쿼리-문서-위치 조합을 별개의 인스턴스로 간주하고, 위치 인코딩을 포함한 연결된 특징을 사용하는 특징 기반 모델을 적용한다.
  • 각 위치의 추정 점수의 합을 최대화하는 탐욕적 선택 절차를 적용하여 유효한 슬레이트를 구성한다.
  • 각 쿼리당 추정된 행동 수준 보상을 평균화하여 회귀 타깃의 안정성을 높이기 위한 분산 감소 기법을 도입한다.

실험 결과

연구 질문

  • RQ1비모수적이고 모델에 종속되지 않는 추정기는 슬레이트 메트릭의 오프-정책 평가에서 비모수적 모델보다 낮은 편향을 달성할 수 있는가?
  • RQ2의사역행렬 추정기는 조합적 슬레이트 환경에서 역확률 스코어링(IPS)에 비해 훨씬 적은 표본 수로 낮은 오차를 유지하는가?
  • RQ3복잡하거나 잘못 지정된 진짜 보상 구조에서 선형성 가정이 얼마나 정확한 추정을 가능하게 하는가?
  • RQ4PI 추정기는 A/B 테스트 없이 오프-정책 최적화의 서브루틴으로 효과적으로 사용될 수 있는가?
  • RQ5목표 정책와의 오버랩이 낮은 저커버리 로깅 정책에서 추정기 성능은 어떻게 변화하는가?

주요 결과

  • 의사역행렬 추정기(PI)는 실제 검색 데이터에서 모든 추정기 중에서 가장 낮은 RMSE를 기록하며, 다양한 메트릭과 데이터 크기에서 비편향 IPS와 편향이 있는 직접 모델링(DM)을 모두 압도한다.
  • PI는 IPS의 $ m^{ ext{O}( ext{L})} $ 표본 복잡도를 $ ext{O}( ext{L}m/ ext{ε}^2) $로 감소시켜 선형성 가정 하에서 데이터 요구량을 기하급수적으로 절감한다.
  • 선형성 가정이 위반되더라도 PI는 비모수적 모델보다 훨씬 낮은 편향을 보이며 실질적인 강건성을 입증한다.
  • 오프-정책 최적화에서 PI-OPT는 MSLR-WEB10K에서 표준 지도 학습(SUP) 기반 보조 모델보다 랭킹 품질에서 경쟁적인 성능을 기록한다.
  • 심각하게 피크가 된 로깅 정책에서도 PI는 낮은 오차를 유지하며, 로깅된 데이터가 증가함에 따라 성능이 점차 향상된다.
  • 실험 결과, 각 쿼리당 추정된 행동 수준 보상을 평균화하면 편향을 유도하지 않고 분산을 감소시켜 회귀 안정성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.