QUICK REVIEW

[논문 리뷰] Counterfactual Risk Minimization: Learning from Logged Bandit Feedback

Adith Swaminathan, Thorsten Joachims|arXiv (Cornell University)|2015. 02. 09.

Advanced Bandit Algorithms Research참고 문헌 35인용 수 124

한 줄 요약

이 논문은 로그된 밴딧 피드백(예: 클릭)만 관측 가능한 부분적 피드백에서의 배치 학습을 위한 원칙적인 프레임워크인 대조적 리스크 최소화(CRM)를 소개한다. 이는 확률적 지수 모델을 사용하는 스 tochastic gradient descent를 통해 분산 인식, 성향 가중 리스크 추정기의 최소화를 통한 보다 뛰어난 일반화 및 강건성 달성을 위한 효율적인 알고리즘인 POEM을 제안한다.

ABSTRACT

We develop a learning principle and an efficient algorithm for batch learning from logged bandit feedback. This learning setting is ubiquitous in online systems (e.g., ad placement, web search, recommendation), where an algorithm makes a prediction (e.g., ad ranking) for a given input (e.g., query) and observes bandit feedback (e.g., user clicks on presented ads). We first address the counterfactual nature of the learning problem through propensity scoring. Next, we prove generalization error bounds that account for the variance of the propensity-weighted empirical risk estimator. These constructive bounds give rise to the Counterfactual Risk Minimization (CRM) principle. We show how CRM can be used to derive a new learning method -- called Policy Optimizer for Exponential Models (POEM) -- for learning stochastic linear rules for structured output prediction. We present a decomposition of the POEM objective that enables efficient stochastic gradient optimization. POEM is evaluated on several multi-label classification problems showing substantially improved robustness and generalization performance compared to the state-of-the-art.

연구 동기 및 목표

로깅된 밴딧 피드백에서만 부분적 피드백(예: 클릭)이 제공되고 완전한 지도 학습이 불가능한 상황에서의 학습 문제를 해결하기 위해.
오프-정책 리스크 추정에서의 편향과 분산을 모두 고려한 일반적인 학습 원칙을 개발하여 이력 로그로부터 강건한 모델 선택을 가능하게 하기 위해.
큰 출력 공간을 가진 구조적 예측을 위한 효율적인 최적화 방법을 설계하고, 가설 표현으로서의 확률적 정책을 사용하기 위해.
하나의 열악한 로깅 정책으로부터의 학습이 대조적 리스크 최소화를 통해 개선된 정책을 도출할 수 있음을 보여주기 위해.
실제 다중 레이블 분류 작업에서 CRM 원칙을 경험적으로 검증하여 최신 기법들에 비해 더 나은 일반화 성능을 보여주기 위해.

제안 방법

밴딧 피드백 하에서 확률적 가설 가족으로의 구조적 리스크 최소화의 일반화 원리인 대조적 리스크 최소화(CRM)를 제안한다.
실제 베르누이 기반 분석을 사용하여 일반화 오차 경계를 유도하며, 성향 가중 리스크 추정기의 분산을 포함시켜 가설 선택을 안내한다.
POEM(지수 모델을 위한 정책 최적화기)을 개발하여 선형 규칙를 사용하는 지수족 모델을 활용한 구조적 출력 예측을 위한 학습 알고리즘을 제시한다.
반복적인 분산 선형화를 통해 POEM 목적 함수를 스 tochastic gradient 최적화에 적합한 형태로 분해하고 AdaGrad를 사용한다.
역성향 점수를 사용하여 오프-정책 성능의 편향 없는 추정기를 구성함으로써, 기록된 데이터에서 대안 정책의 평가를 가능하게 한다.
리스크 추정기의 분산에 기반한 데이터 의존적 정규화를 도입하여 열악한 로깅 정책에 대한 강건성을 확보한다.

실험 결과

연구 질문

RQ1편향과 분산을 모두 고려한 성능 추정에서 로깅된 밴딧 피드백에서의 배치 학습을 위한 원칙적인 학습 프레임워크를 개발할 수 있는가?
RQ2부분적 피드백 하에서 확률적 가설 가족의 일반화 오차 경계를 어떻게 구성할 수 있으며, 이를 모델 선택에 어떻게 활용할 수 있는가?
RQ3밴딧 피드백만을 사용하여 지수적으로 큰 출력 공간을 가진 구조적 예측을 위한 확장 가능한 최적화 방법을 유도할 수 있는가?
RQ4로깅 정책의 품질과 확률적 성격이 CRM 원칙 하에서 학습된 정책의 성능에 어떻게 영향을 미치는가?
RQ5제안된 방법이 실제 다중 레이블 분류 작업에서 일반화 및 강건성 측면에서 최신 기법들을 능가하는가?

주요 결과

POEM은 하위 최적 정책으로 로깅된 데이터로 훈련된 경우조차도 최신 기법들에 비해 상당히 향상된 일반화 성능을 달성한다.
조직 정책 $h_0$가 잘 훈련되지 않은 경우조차도 POEM은 항상 $h_0$를 초월하는 정책을 학습함으로써 열악한 로깅 행동에 대한 강건성을 입증한다.
로깅 정책 품질의 다양한 수준($f$가 훈련 데이터의 1%에서 100%까지)에서도 POEM의 성능이 유지되며, 다양한 품질의 데이터로부터 효과적으로 학습함을 보여준다.
로깅 정책이 매우 결정적인 성향을 띠게 되더라도 POEM은 여전히 강력한 성능을 유지하며 극단적인 경우 $h_0$의 MAP 예측으로 복구됨을 보여주어 점진적인 성능 저하를 보인다.
모든 테스트 데이터셋(Yeast 및 LYRL 포함)에서 일관된 향상이 관찰되며, 최종 모델에 대한 초모수 조정이 필요 없음.
경험적 결과는 CRM의 이론적 주장에 대한 지지를 보여주며, 분산 인식 리스크 최소화가 기존 방법보다 더 나은 일반화를 이끌어낸다는 것을 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.