QUICK REVIEW

[논문 리뷰] Reinforcement Learning based Recommender System using Biclustering Technique

Sungwoon Choi, Heonseok Ha|arXiv (Cornell University)|2018. 01. 17.

Recommender Systems and Techniques참고 문헌 18인용 수 62

한 줄 요약

논문은 그리드월드로 프레임된 RL 기반 추천 시스템을 제안하고, biclustering을 사용해 상태/액션 공간을 축소하며 온라인 업데이트와 설명가능성을 통해 콜드 스타트 추천을 개선한다.

ABSTRACT

A recommender system aims to recommend items that a user is interested in among many items. The need for the recommender system has been expanded by the information explosion. Various approaches have been suggested for providing meaningful recommendations to users. One of the proposed approaches is to consider a recommender system as a Markov decision process (MDP) problem and try to solve it using reinforcement learning (RL). However, existing RL-based methods have an obvious drawback. To solve an MDP in a recommender system, they encountered a problem with the large number of discrete actions that bring RL to a larger class of problems. In this paper, we propose a novel RL-based recommender system. We formulate a recommender system as a gridworld game by using a biclustering technique that can reduce the state and action space significantly. Using biclustering not only reduces space but also improves the recommendation quality effectively handling the cold-start problem. In addition, our approach can provide users with some explanation why the system recommends certain items. Lastly, we examine the proposed algorithm on a real-world dataset and achieve a better performance than the widely used recommendation algorithm.

연구 동기 및 목표

강화학습를 활용한 연속 추천의 타당성을 제시하고 RL 기반 추천시스템에서 큰 액션 공간 문제를 다룬다.
상태와 액션 공간을 줄이는 그리드월드와 유사한 MDP를 만들기 위해 biclustering을 도입한다.
사용자 피드백이 보상과 정책을 실시간으로 변화시키도록 온라인 업데이트를 가능하게 한다.
권장 아이템을 정책과 추천으로 연결해 특정 이분군(상태)에 대한 설명가능한 추천을 제공한다.
Movielens 데이터셋에서 실증적으로 평가하고 표준 베이스라인과 비교한다.

제안 방법

권고를 n^2개의 이분군으로 구성된 상태와 최대 네 방향의 행동으로 보는 그리드월드 MDP로 형식화한다.
2D 사용자 벡터 임베딩과 그리디 최근접 배치를 이용한 매핑으로 각 상태를 이분군(U,I)로 매핑한다.
Q-learning 또는 ε-탐욕적 탐사를 이용해 Q-함수를 학습한다.
연속하는 상태들의 사용자 집합 간의 자카드 거리로 보상을 정의해 유사한 사용자 그룹을 장려한다.
상태를 시작 상태의 상위 k개를 선택하고 ε-탑재 정책으로 상태를 방문하며 아이템을 제안한다.
관찰된 만족도에 따라 상태의 사용자 집합을 업데이트해 보상과 정책을 온라인으로 조정한다.

실험 결과

연구 질문

RQ1이분군화가 상태 및 행동 공간을 충분히 축소해 RL 기반 추천 시스템의 실행 가능성을 높일 수 있는가?
RQ2그리드월드 형식을 갖춘 RL 기반 접근법이 콜드 스타트 조건에서 표준 방법보다 랭킹 지표를 개선하는가?
RQ3Q-학습과 SARSA가 이 이분군화 기반 RL 설정에서 서로 다른 성능을 보이는가?
RQ4시스템이 이분군 상태를 바탕으로 추천에 대한 설명을 제공할 수 있는가?
RQ5사용자-상태 연관성의 온라인 업데이트가 시간이 지남에 따라 추천에 어떤 영향을 미치는가?

주요 결과

제안된 방법은 Movielens 데이터셋의 콜드 스타트 조건에서 글로벌 평균, 사용자 기반, 아이템 기반 베이스라인보다 더 높은 P@30 및 R@30을 달성한다.
제안된 접근은 Movielens_100k에서 P@30 0.246 및 R@30 0.169를, Movielens_1M에서 P@30 0.277 및 R@30 0.155를 얻는다.
Q-학습과 SARSA는 이 환경에서 유사한 학습 곡선을 보이며 성능도 비슷하다.
시스템은 해당 이분군 상태와 그에 속하는 아이템/사용자 그룹을 지시함으로써 추천을 설명할 수 있다.
사용자 피드백에 기반한 상태 정의의 온라인 업데이트는 보상을 조정하고 실시간으로 추천을 조정할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.