QUICK REVIEW

[논문 리뷰] Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology

Eugene Ie, Vihan Jain|arXiv (Cornell University)|2019. 05. 29.

Recommender Systems and Techniques참고 문헌 68인용 수 23

한 줄 요약

이 논문은 슬레이트 기반 추천 시스템에서 강화 학습을 위한 타당한 분해 기법인 SlateQ를 제안한다. 이 기법은 유저의 선택 행동에 대한 유사한 가정 하에 슬레이트 수준의 장기 가치(LTV)를 개별 항목의 LTV로 분해함으로써 장기 가치 최적화를 가능하게 한다. 이 방법은 시간 차분 학습과 통합되며, 선형 프로그래밍을 통해 다항 시간 내에 확장 가능한 슬레이트 최적화를 가능하게 하여 실시간 유튜브 실험에서 단기적 기준에 비해 사용자 참여도가 크게 향상됨을 보였다.

ABSTRACT

Most practical recommender systems focus on estimating immediate user engagement without considering the long-term effects of recommendations on user behavior. Reinforcement learning (RL) methods offer the potential to optimize recommendations for long-term user engagement. However, since users are often presented with slates of multiple items - which may have interacting effects on user choice - methods are required to deal with the combinatorics of the RL action space. In this work, we address the challenge of making slate-based recommendations to optimize long-term value using RL. Our contributions are three-fold. (i) We develop SLATEQ, a decomposition of value-based temporal-difference and Q-learning that renders RL tractable with slates. Under mild assumptions on user choice behavior, we show that the long-term value (LTV) of a slate can be decomposed into a tractable function of its component item-wise LTVs. (ii) We outline a methodology that leverages existing myopic learning-based recommenders to quickly develop a recommender that handles LTV. (iii) We demonstrate our methods in simulation, and validate the scalability of decomposed TD-learning using SLATEQ in live experiments on YouTube.

연구 동기 및 목표

슬레이트 기반 추천 시스템의 강화 학습에서 조합적 행동 공간 문제를 해결하기 위해.
유저 선택 행동에 대한 현실적인 가정 하에 슬레이트 수준의 장기 가치(LTV)를 개별 항목의 LTV로 분해함으로써 효과적인 장기 가치 최적화를 가능하게 하기 위해.
기존 단기적 추천 시스템에 강화 학습을 통합하기 위한 실용적인 방법론을 개발하기 위해.
제안된 강화 학습 프레임워크가 유튜브와 같은 대규모 생산 환경에서 확장성과 효과성을 보여주기 위해.

제안 방법

유저 선택 행동에 대한 경미한 가정 하에 슬레이트의 장기 가치(LTV)를 개별 항목의 LTV 함수로 표현하는 SlateQ라는 분해 기법을 도입한다.
시간 차분(TD) 학습과 Q-학습을 항목 수준의 LTV 추정치에서 작동하도록 적응시켜 효율적인 일반화와 탐색을 가능하게 한다.
슬레이트 최적화 문제를 선형 프로그래밍(LP)으로 환원하여 다항 시간 내에 해결 가능하게 하며, 실용적인 근사 방법으로는 상위-k 및 근사 방법도 평가한다.
기존 단기적 추천 시스템의 항목 수준 LTV 예측치를 강화 학습 파이프라인의 입력으로 재사용하여 강화 학습을 기존 추천 시스템에서 부트스트랩하는 방법론을 제안한다.
슬레이트 최적화를 두 단계의 환원으로 수행한다: 첫 번째로 분수 배낭 문제로, 두 번째로 선형 프로그래밍(LP)으로 환원하여 Q-학습에서 효율적인 정책 개선을 가능하게 한다.
시뮬레이션과 유튜브에서의 실시간 A/B 실험을 통해 LTV 최적화 정책을 단기적 참여도 최적화 기준의 베이스라인과 비교하여 접근 방법을 검증한다.

실험 결과

연구 질문

RQ1유저 선택 행동에 대한 현실적인 가정 하에 슬레이트의 장기 가치를 개별 항목의 장기 가치 함수로 효과적으로 분해할 수 있는가?
RQ2시간 차분 및 Q-학습을 항목 수준의 LTV 추정치에서 작동하도록 적응시킬 수 있는가? 이는 슬레이트 추천에서 확장성과 성능을 유지하는가?
RQ3SlateQ 분해 기반으로 선형 프로그래밍 기반 또는 히우리스틱 방법을 사용해 조합적 슬레이트 최적화 문제를 다항 시간 내에 해결할 수 있는가?
RQ4기존 단기적 추천 시스템을 얼마나 효과적으로 재사용하여 생산 환경에서 강화 학습 기반의 장기 가치 최적화를 부트스트랩할 수 있는가?
RQ5실제 운영 환경에서 제안된 강화 학습 기반 슬레이트 추천 시스템이 단기적 기준에 비해 장기적 사용자 참여도를 크게 향상시키는가?

주요 결과

실시간 유튜브 실험에서 LTV 최적화된 SlateQ 모델을 사용할 경우, 단기적 기준의 베이스라인(MYOP-TS) 대비 집합적 사용자 참여도가 통계적으로 유의미하고 일관되게 증가함을 확인했다.
LTV 최적화된 모델에서 추천을 받은 사용자들은 더 긴 세션 참여 시간을 기록하여 장기적 사용자 만족도 향상을 시사했다.
참여도 증가율 분포는 상위 순위 슬레이트 위치에서 가장 높았으며, 상위 3개 위치가 총 참여도의 약 95%를 차지했다.
위치 10에서 사건 수가 적음에도 불구하고, 모델은 측정 가능한, 비록 통계적으로 노이즈가 있는 증가를 보였으며, 이는 높은 순위에서의 강건성을 시사했다.
LP 기반 최적화 방법은 최적의 슬레이트 선택을 달성했으며, 상위-k 및 근사 방법은 이론적 보장 없이도 실용적으로 잘 작동했다.
이 방법론을 통해 존재하는 단기적 추천 시스템 인프라를 재사용함으로써 강화 학습의 빠른 구현이 가능했으며, 대규모 시스템에 대한 실용적 타당성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.