[논문 리뷰] RecoGym: A Reinforcement Learning Environment for the problem of Product Recommendation in Online Advertising
RecoGym은 온라인 광고에서의 제품 추천을 위한 OpenAI Gym 호환 RL 환경을 도입하고, 유기적 및 밴딧 사용자 상호작용을 모두 모델링하여 오프라인 평가와 온라인 평가를 일치시킨다.
Recommender Systems are becoming ubiquitous in many settings and take many forms, from product recommendation in e-commerce stores, to query suggestions in search engines, to friend recommendation in social networks. Current research directions which are largely based upon supervised learning from historical data appear to be showing diminishing returns with a lot of practitioners report a discrepancy between improvements in offline metrics for supervised learning and the online performance of the newly proposed models. One possible reason is that we are using the wrong paradigm: when looking at the long-term cycle of collecting historical performance data, creating a new version of the recommendation model, A/B testing it and then rolling it out. We see that there a lot of commonalities with the reinforcement learning (RL) setup, where the agent observes the environment and acts upon it in order to change its state towards better states (states with higher rewards). To this end we introduce RecoGym, an RL environment for recommendation, which is defined by a model of user traffic patterns on e-commerce and the users response to recommendations on the publisher websites. We believe that this is an important step forward for the field of recommendation systems research, that could open up an avenue of collaboration between the recommender systems and reinforcement learning communities and lead to better alignment between offline and online performance metrics.
연구 동기 및 목표
- 오프라인 지표와 온라인 성능 간의 차이를 강조하여 순수하게 감독 학습 기반 추천 시스템에서 강화 학습으로의 전환을 촉진한다.
- 유기적(사이트 탐색) 및 밴딧(광고) 상호작용을 모두 모델링하는 조정 가능한 RL 환경을 제공하여 추천의 장기 효과를 연구한다.
- 제어된 시뮬레이터에서 사용자 트래픽 패턴과 광고 노출 효과를 모두 반영한 정책 평가를 가능하게 한다.
제안 방법
- 유기적 세션과 밴딧 퍼블리셔 세션을 포함하는 매개변수화된 사용자 트래픽 모델을 정의한다.
- RL 에이전트를 위한 Reset과 Step 루틴이 있는 OpenAI Gym 호환 환경을 만든다.
- 유기적 및 밴딧 행동 간의 제어 가능한 상관관계와 조정 가능한 숨겨진 사용자-아이템 클러스터를 도입한다.
- 클릭률에 대한 광고 노출 효과를 모델링하고 광고 피로와 같은 시간에 따라 변하는 비정상성(non-stationarity)을 허용한다.
실험 결과
연구 질문
- RQ1밴딧 데이터의 양이 달라질 때 유기적 정보와 밴딧 정보를 어떻게 결합하여 추천 성능을 향상시킬 수 있는가?
- RQ2유기적 및 밴딧 행동 간 상관도 수준이 다양한 학습 전략의 효율성에 어떤 영향을 미치는가?
- RQ3중간 규모의 데이터 환경에서 단일 결합 모델이 순수한 유기적 또는 순수한 밴딧 접근법보다 성능을 낼 수 있는가?
- RQ4두 데이터 소스를 활용하는 RL 에이전트가 RecoGym 내에서 합리적인 정책을 학습하는지 확인하는 타당성 검사(sanity checks)는 무엇인가?
- RQ5이 환경에서 RL 방법에 대해 합리적인 벤치마크를 제공하는 기본 에이전트는 무엇인가?
주요 결과
- 오프라인 온라인 광고에서의 추천을 위한 최초의 RL 환경으로 RecoGym을 소개한다.
- 유기적 및 밴딧 상호작용을 모두 지원하며 상관관계와 사용자-아이템 클러스터링 차원을 조정할 수 있다.
- 시뮬레이터와 상호작용하는 기본 에이전트(Random, Logistic, Supervised-Prod2Vec)를 제공한다.
- 유기적 및 밴딧 데이터를 서로 연결하여 데이터 체계 전반에 걸친 예상 성능을 검증하는 타당성 검사 프레임워크를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.