QUICK REVIEW

[논문 리뷰] Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application

Yujing Hu, Qing Da|arXiv (Cornell University)|2018. 03. 02.

Optimization and Search Problems참고 문헌 31인용 수 37

한 줄 요약

이 논문은 다단계 검색 세션을 검색 세션 마르코프 결정 과정(SSMDP)으로 모델링하여 순차적 의존성을 포착하는 강화학습 접근법을 제안한다. 이는 순차적 상호작용에서 누적 보상 최대화의 이론적 타당성을 제시하며, 보상 분산이 크고 균형 잡히지 않은 환경에서 안정적인 학습을 가능하게 하는 새로운 결정성 정책 그래디언트 알고리즘(DPG-FBE)을 도입한다. 시뮬레이션에서는 40% 이상, 타오바오 실환경 구동에서는 30% 이상의 거래량 향상을 달성한다.

ABSTRACT

In e-commerce platforms such as Amazon and TaoBao, ranking items in a search session is a typical multi-step decision-making problem. Learning to rank (LTR) methods have been widely applied to ranking problems. However, such methods often consider different ranking steps in a session to be independent, which conversely may be highly correlated to each other. For better utilizing the correlation between different ranking steps, in this paper, we propose to use reinforcement learning (RL) to learn an optimal ranking policy which maximizes the expected accumulative rewards in a search session. Firstly, we formally define the concept of search session Markov decision process (SSMDP) to formulate the multi-step ranking problem. Secondly, we analyze the property of SSMDP and theoretically prove the necessity of maximizing accumulative rewards. Lastly, we propose a novel policy gradient algorithm for learning an optimal ranking policy, which is able to deal with the problem of high reward variance and unbalanced reward distribution of an SSMDP. Experiments are conducted in simulation and TaoBao search engine. The results demonstrate that our algorithm performs much better than online LTR methods, with more than 40% and 30% growth of total transaction amount in the simulation and the real application, respectively.

연구 동기 및 목표

기존의 러닝-투-랭크(LTR) 방법이 순서적 의존성을 忽시하는 한계를 해결하기 위해, 순서적 의존성을 고려하지 않는 단일 단계 순위 매기기 방법의 문제점을 해결한다.
상태, 행동, 보상, 전이 함수를 포함한 마르코프 결정 과정(SSMDP)으로 다단계 전자상거래 검색를 공식적으로 모델링한다.
사용자 검색 세션 전반에 걸친 누적 보상 최대화가 단일 단계 보상 최적화보다 이론적으로 필수적이고 유익함을 정당화한다.
SSMDP 환경에서 높은 보상 분산과 균형 잡히지 않은 보상 분포를 다룰 수 있는 강력한 정책 그래디언트 알고리즘(DPG-FBE)을 설계한다.
제안된 방법을 시뮬레이션과 타오바오 검색 엔진의 실환경에서 실험적으로 검증하여 최신 LTR 방법보다 뛰어난 성능을 입증한다.

제안 방법

다단계 검색 세션을 검색 세션 마르코프 결정 과정(SSMDP)으로 공식화하여 상태 공간, 행동 공간, 보상 함수, 상태 전이 역학을 정의한다.
고급 보상 분산과 균형 잡히지 않은 보상 환경에서의 학습 안정성을 높이기 위해, DPG-FBE(Deterministic Policy Gradient with Full Backup Estimation)라는 새로운 정책 그래디언트 알고리즘을 제안한다.
미래 보상을 더 정확히 통합함으로써 가치 함수 근사치를 향상시키고, 정책 갱신의 분산을 감소시키기 위해 전체 백업 추정 기법을 사용한다.
로그 센터와 온라인 키-밸류(KV) 시스템을 활용하여 실시간 모델 업데이트를 지원하는 데이터 스트림 기반 온라인 강화학습 시스템을 구현한다.
생산 환경에서 저지연 추론을 보장하기 위해 액터 및 크리틱 네트워크에 각각 80개 및 64개 유닛을 갖는 소규모 딥 네트워크를 사용한다.
DPG-FBE 알고리즘을 타오바오 검색 엔진에 통합하고, DDPG 및 오프라인 LTR 기준선과의 A/B 테스트를 실시한다.

실험 결과

연구 질문

RQ1다단계 검색 세션을 순차적 의사결정 과정(SSMDP)으로 모델링하는 것이 독립 단계 모델링보다 더 뛰어난 순위 매기기 성능을 낼 수 있는가?
RQ2전체 검색 세션 동안 누적 보상을 최대화하는 것이 개별 순위 매기기 단계 최적화보다 이론적으로 필수적이고 유익한가?
RQ3보상 분산이 크고 균형 잡히지 않은 환경에서 SSMDP에 적합한 정책 그래디언트 알고리즘이 기존 강화학습 및 LTR 방법을 초월할 수 있는가?
RQ4제안된 DPG-FBE 알고리즘이 실환경 전자상거래 거래량에서 측정 가능한 향상을 이룰 수 있는가?
RQ5실시간 사용자 피드백을 수용하는 온라인 강화학습 시스템은 실생산 워크로드 하에서 어떻게 확장되고 성능을 발휘하는가?

주요 결과

제안된 DPG-FBE 알고리즘은 최신 LTR 방법 대비 시뮬레이션에서 총 거래량 40% 이상 향상되었다.
타오바오 실환경 구동에서 DPG-FBE 알고리즘은 오프라인 LTR 기준선 대비 총 거래량(GMV) 30% 이상 증가를 달성했다.
A/B 테스트 결과, 일주일 동안 DPG-FBE는 DDPG 대비 일일 거래량 2.7%에서 4.3%까지 향상되었다.
알고리즘은 2016년 더블 11 쇼핑 페스티벌 기간 동안 성공적으로 운영되어 고복잡도 실생산 환경에서의 강건성과 확장성을 입증했다.
이론적 분석을 통해 검색 세션 내 순차적 순위 매기기 단계 간 강한 상관관계로 인해 누적 보상 최대화가 필수적임을 확인했다.
DPG-FBE의 전체 백업 추정 기법은 복잡하고 보상이 희박한 환경에서 보상 분산을 효과적으로 감소시키고 정책 학습의 안정성을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.