[논문 리뷰] Deep Reinforcement Learning for List-wise Recommendations
이 논문은 오프라인 학습 및 평가를 온라인 배포 전에 가능하게 하는 온라인 환경 시뮬레이터와 함께 액터-크리틱 아키텍처를 활용하여 리스트-와이즈 추천을 위한 심층 강화 학습 프레임워크(LIRD)를 제안하며, 실제 전자상거래 데이터에서 베이스라인 대비 이점을 보여준다.
Recommender systems play a crucial role in mitigating the problem of information overload by suggesting users' personalized items or services. The vast majority of traditional recommender systems consider the recommendation procedure as a static process and make recommendations following a fixed strategy. In this paper, we propose a novel recommender system with the capability of continuously improving its strategies during the interactions with users. We model the sequential interactions between users and a recommender system as a Markov Decision Process (MDP) and leverage Reinforcement Learning (RL) to automatically learn the optimal strategies via recommending trial-and-error items and receiving reinforcements of these items from users' feedbacks. In particular, we introduce an online user-agent interacting environment simulator, which can pre-train and evaluate model parameters offline before applying the model online. Moreover, we validate the importance of list-wise recommendations during the interactions between users and agent, and develop a novel approach to incorporate them into the proposed framework LIRD for list-wide recommendations. The experimental results based on a real-world e-commerce dataset demonstrate the effectiveness of the proposed framework.
연구 동기 및 목표
- 권장 시스템에서 정적이고 단기적인 전략을 넘어 동적이고 장기적인 최적화의 필요성을 제시한다.
- 사용자–권장 시스템 상호작용을 시간에 따라 누적 보상을 최대화하는 MDP로 모델링한다.
- 온라인 배포 전에 오프라인 사전학습 및 평가를 가능하게 하는 온라인 환경 시뮬레이터를 개발한다.
- 크고 동적인 아이템 공간을 다루는 리스트-와이즈, 확장 가능한 RL 프레임워크(LIRD)를 도입한다.
- 실제 전자상거래 데이터에서 리스트-와이즈 추천의 효과를 입증한다.
제안 방법
- 권장기를 사용자를 MDP로 모델링하되 상태 s는 사용자의 탐색 이력, 행동 a는 K개의 추천 아이템의 리스트, 보상 r은 사용자 피드백에서 얻고 할인 계수 gamma.
- 역사적 메모리와 코사인 유사성을 사용하여 (상태, 행동) 쌍을 보상에 매핑하는 온라인 환경 시뮬레이터를 활용하여 오프라인 학습을 가능하게 한다.
- 액터-크리틱 아키텍처를 사용하여 액터가 아이템을 점수화하기 위한 상태별 가중치 벡터를 생성하고 리스트-와이즈 작용을 만들어내며, 크리틱은 딥 Q-네트워크 근사를 통해 Q(s,a)를 추정한다.
- 경험 재현, 타깃 네트워크 및 우선 순위 샘플링을 활용하여 Deep Deterministic Policy Gradient(DDPG)로 학습한다.
- 상호작용으로 전이(전이)를 생성한 뒤 미니배치로 액터와 크리틱 네트워크를 업데이트하는 2단계 학습 절차를 채택한다.
- 실제 데이터셋에서 K를 변화시키며 리스트-와이즈 전략을 평가하고 CF, FM, DNN, RNN, DQN 베이스라인과 비교한다.
실험 결과
연구 질문
- RQ1제안된 프레임워크가 아이템 추천 작업에서 대표적 베이스라인보다 성능이 우수한가?
- RQ2리스트-와이즈 추천(K 변화)이 장기 시나리오에서 성능에 어떤 영향을 미치는가?
- RQ3온라인 시뮬레이터가 신뢰할 수 있는 오프라인 사전 학습을 제공하여 온라인 배포까지의 격차를 줄일 수 있는가?
주요 결과
- 제안된 프레임워크는 짧은 세션과 긴 세션 모두에서 베이스라인을 능가하며, 장기 보상 최적화로 인해 긴 세션에서 더 큰 이점을 보인다.
- 리스트-와이즈 추천(K=4)이 다른 K 값들보다 더 나은 성능을 보이며, 아이템 간 상관관계 포착과 노이즈 회피 간의 균형을 시사한다.
- LIRD는 모든 행동 평가를 피함으로써 계산량을 줄여 DQN보다 더 빠르게 학습하면서 비슷하거나 더 나은 성능을 달성한다.
- 온라인 시뮬레이터는 오프라인 학습과 평가를 가능하게 하여 오프라인–온라인 간의 차이를 완화하고 온라인 사용을 위한 매개변수 초기화를 촉진한다.
- 역사적 사용자-아이템 임베딩 및 아이템 이력을 활용하면 사용자의 선호도 모델링과 확장성에 도움이 된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.