QUICK REVIEW

[논문 리뷰] Model-Based Reinforcement Learning with Adversarial Training for Online Recommendation

Xueying Bai, Jian Guan|arXiv (Cornell University)|2019. 11. 10.

Reinforcement Learning in Robotics참고 문헌 40인용 수 42

한 줄 요약

IRecGAN 소개, 오프라인 데이터를 온라인 권고를 위해 모델 기반 RL 프레임워크로 사용해 적대적 학습으로 사용자 행동과 정책을 학습하고 샘플 효율성을 높이고 편향을 줄임.

ABSTRACT

Reinforcement learning is well suited for optimizing policies of recommender systems. Current solutions mostly focus on model-free approaches, which require frequent interactions with the real environment, and thus are expensive in model learning. Offline evaluation methods, such as importance sampling, can alleviate such limitations, but usually request a large amount of logged data and do not work well when the action space is large. In this work, we propose a model-based reinforcement learning solution which models user-agent interaction for offline policy learning via a generative adversarial network. To reduce bias in the learned model and policy, we use a discriminator to evaluate the quality of generated data and scale the generated rewards. Our theoretical analysis and empirical evaluations demonstrate the effectiveness of our solution in learning policies from the offline and generated data.

연구 동기 및 목표

희소하고 오프라인으로 로깅된 데이터에서 학습된 추천 정책으로 장기적인 사용자 만족도를 극대화하는 것을 목표로 한다.
사용자 행동과 상호작용을 명시적으로 모델링하는 모델 기반 RL 프레임워크를 제안한다.
적대적 학습 및 보상 스케일링을 통해 모델 편향과 불안정한 정책 업데이트를 완화한다.
이론적 편향 제어 이점과 기초 대비 실험적 효율성을 입증한다.

제안 방법

환경을 사용자 행동 모델 U와 상호 작용하여 추천 시퀀스를 생성하는 에이전트 A로 모델링한다.
순환 신경망을 사용하여 사용자 상태 s^u_t와 에이전트 상태 s^a_t를 표현하고 소프트맥스 기반의 클릭 및 보상 예측(Eq. 1–2)을 수행한다.
오프라인 데이터에서 최대 우도 추정을 통해 사용자 모델 U를 학습하고 클릭과 보상을 함께 예측한다(Eq. 3).
에이전트 A에 대해 정책 그래디언트(REINFORCE)를 적용하고, 오프라인 데이터와 생성된 데이터(g)를 사용하여 정책을 업데이트한다(Eq. 9–10).
실제 시퀀스와 생성된 시퀀스를 구분하는 판별기 D를 도입하고, 이를 이용해 (i) 사용자 모델의 편향을 제거하고 (ii) 생성된 보상을 스케일링하여 적대적 학습(Eq. 5–8)을 가능하게 한다.
몬테카를로 롤아웃을 통해 부분 시퀀스에 대한 시퀀스 생성 점수 q_D를 계산하여 U와 A를 안내한다(Eq. 6).

실험 결과

연구 질문

RQ1오프라인 데이터가 모델 기반 RL 프레임워크를 통해 온라인 권고에 대해 고품질 정책을 효과적으로 학습하는 데 활용될 수 있는가?
RQ2적대적 학습이 학습된 사용자 모델의 편향을 줄이고 오프라인에서 온라인으로의 설정에서 정책 학습을 개선하는가?
RQ3생성 보상을 스케일링하기 위한 판별기 도입이 가치 추정과 정책 업데이트의 안정성에 어떤 영향을 미치는가?
RQ4오프라인 데이터와 생성 샘플을 결합하는 것이 정책 성능과 샘플 효율성에 어떤 영향을 미치는가?
RQ5제안된 접근 방식이 시뮬레이션 환경에서 모델 자유 기반 방법 및 다른 오프라인 평가 방법에 비해 어떤 성능을 보이는가?

주요 결과

IRecGAN은 시뮬레이션된 온라인 평가에서 baselines에 비해 더 나은 샘플 효율성과 경쟁력 있거나 우수한 성능을 보인다.
적대적 학습은 사용자 모델 U가 실제 데이터 패턴을 포착하도록 도와 편향을 줄이고 정책 학습을 안정화한다.
판별기 기반 보상 스케일링은 생성 데이터의 가치 추정 편향을 줄여 정책 그래디언트를 개선한다.
오프라인 데이터를 생성 샘플과 결합하면 온라인 상호작용이 비용이 많이 들 때도 효과적으로 학습할 수 있다.
시퀀스 생성 목표가 실제 데이터 분포와 일치하도록 하는 에이전트 업데이트가 다양한 데이터 로깅 정책 하에서 baselines를 매칭하거나 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.