QUICK REVIEW

[논문 리뷰] Deep Reinforcement Learning for List-wise Recommendations

Xiangyu Zhao, Liang Zhang|arXiv (Cornell University)|2017. 12. 30.

Recommender Systems and Techniques참고 문헌 32인용 수 109

한 줄 요약

이 논문은 오프라인 학습 및 평가를 온라인 배포 전에 가능하게 하는 온라인 환경 시뮬레이터와 함께 액터-크리틱 아키텍처를 활용하여 리스트-와이즈 추천을 위한 심층 강화 학습 프레임워크(LIRD)를 제안하며, 실제 전자상거래 데이터에서 베이스라인 대비 이점을 보여준다.

ABSTRACT

Recommender systems play a crucial role in mitigating the problem of information overload by suggesting users' personalized items or services. The vast majority of traditional recommender systems consider the recommendation procedure as a static process and make recommendations following a fixed strategy. In this paper, we propose a novel recommender system with the capability of continuously improving its strategies during the interactions with users. We model the sequential interactions between users and a recommender system as a Markov Decision Process (MDP) and leverage Reinforcement Learning (RL) to automatically learn the optimal strategies via recommending trial-and-error items and receiving reinforcements of these items from users' feedbacks. In particular, we introduce an online user-agent interacting environment simulator, which can pre-train and evaluate model parameters offline before applying the model online. Moreover, we validate the importance of list-wise recommendations during the interactions between users and agent, and develop a novel approach to incorporate them into the proposed framework LIRD for list-wide recommendations. The experimental results based on a real-world e-commerce dataset demonstrate the effectiveness of the proposed framework.

연구 동기 및 목표

권장 시스템에서 정적이고 단기적인 전략을 넘어 동적이고 장기적인 최적화의 필요성을 제시한다.
사용자–권장 시스템 상호작용을 시간에 따라 누적 보상을 최대화하는 MDP로 모델링한다.
온라인 배포 전에 오프라인 사전학습 및 평가를 가능하게 하는 온라인 환경 시뮬레이터를 개발한다.
크고 동적인 아이템 공간을 다루는 리스트-와이즈, 확장 가능한 RL 프레임워크(LIRD)를 도입한다.
실제 전자상거래 데이터에서 리스트-와이즈 추천의 효과를 입증한다.

제안 방법

권장기를 사용자를 MDP로 모델링하되 상태 s는 사용자의 탐색 이력, 행동 a는 K개의 추천 아이템의 리스트, 보상 r은 사용자 피드백에서 얻고 할인 계수 gamma.
역사적 메모리와 코사인 유사성을 사용하여 (상태, 행동) 쌍을 보상에 매핑하는 온라인 환경 시뮬레이터를 활용하여 오프라인 학습을 가능하게 한다.
액터-크리틱 아키텍처를 사용하여 액터가 아이템을 점수화하기 위한 상태별 가중치 벡터를 생성하고 리스트-와이즈 작용을 만들어내며, 크리틱은 딥 Q-네트워크 근사를 통해 Q(s,a)를 추정한다.
경험 재현, 타깃 네트워크 및 우선 순위 샘플링을 활용하여 Deep Deterministic Policy Gradient(DDPG)로 학습한다.
상호작용으로 전이(전이)를 생성한 뒤 미니배치로 액터와 크리틱 네트워크를 업데이트하는 2단계 학습 절차를 채택한다.
실제 데이터셋에서 K를 변화시키며 리스트-와이즈 전략을 평가하고 CF, FM, DNN, RNN, DQN 베이스라인과 비교한다.

실험 결과

연구 질문

RQ1제안된 프레임워크가 아이템 추천 작업에서 대표적 베이스라인보다 성능이 우수한가?
RQ2리스트-와이즈 추천(K 변화)이 장기 시나리오에서 성능에 어떤 영향을 미치는가?
RQ3온라인 시뮬레이터가 신뢰할 수 있는 오프라인 사전 학습을 제공하여 온라인 배포까지의 격차를 줄일 수 있는가?

주요 결과

제안된 프레임워크는 짧은 세션과 긴 세션 모두에서 베이스라인을 능가하며, 장기 보상 최적화로 인해 긴 세션에서 더 큰 이점을 보인다.
리스트-와이즈 추천(K=4)이 다른 K 값들보다 더 나은 성능을 보이며, 아이템 간 상관관계 포착과 노이즈 회피 간의 균형을 시사한다.
LIRD는 모든 행동 평가를 피함으로써 계산량을 줄여 DQN보다 더 빠르게 학습하면서 비슷하거나 더 나은 성능을 달성한다.
온라인 시뮬레이터는 오프라인 학습과 평가를 가능하게 하여 오프라인–온라인 간의 차이를 완화하고 온라인 사용을 위한 매개변수 초기화를 촉진한다.
역사적 사용자-아이템 임베딩 및 아이템 이력을 활용하면 사용자의 선호도 모델링과 확장성에 도움이 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.