Skip to main content
QUICK REVIEW

[논문 리뷰] Seq2Slate: Re-ranking and Slate Optimization with RNNs

Irwan Bello, Sayali Kulkarni|arXiv (Cornell University)|2018. 10. 04.
Topic Modeling참고 문헌 55인용 수 43
한 줄 요약

Seq2Slate은 seq2seq 및 포인터 네트워크 아키텍처를 사용하여 이미 선택된 항목에 조건화된 다음 항목을 순차적으로 선택함으로써 슬레이트의 재정렬을 수행하며 클릭 데이터의 약 supervision에서 학습합니다.

ABSTRACT

Ranking is a central task in machine learning and information retrieval. In this task, it is especially important to present the user with a slate of items that is appealing as a whole. This in turn requires taking into account interactions between items, since intuitively, placing an item on the slate affects the decision of which other items should be placed alongside it. In this work, we propose a sequence-to-sequence model for ranking called seq2slate. At each step, the model predicts the next `best' item to place on the slate given the items already selected. The sequential nature of the model allows complex dependencies between the items to be captured directly in a flexible and scalable way. We show how to learn the model end-to-end from weak supervision in the form of easily obtained click-through data. We further demonstrate the usefulness of our approach in experiments on standard ranking benchmarks as well as in a real-world recommendation system.

연구 동기 및 목표

  • display area가 제한되거나 다양성이 가치 있는 경우 랭킹된 항목 간의 상호 작용 모델링의 필요성을 동기화합니다.
  • 아이템의 순서를 따라 선택하여 순열(슬레이트)을 출력하는 확장 가능한 sequence-to-slate 모델을 제안합니다.
  • Ground-truth 랭킹이 아닌 약한 감독 신호(클릭 스루 데이터)에서 엔드-투-엔드 학습이 가능하도록 합니다.
  • 학습-투-랭크 벤치마크와 대규모 실제 추천 시스템에서의 효과를 보여줍니다.

제안 방법

  • 포인터-네트워크(주의를 가진 인코더-디코더)로 시퀀스 예측으로 랭킹을 형상화하여 입력 아이템의 순서를 재배열을 출력합니다.
  • 후보 아이템을 인코딩하고 슬레이트를 디코딩하기 위해 두 개의 LSTM 기반 RNN을 사용하며, 다음 항목을 선택하기 위해 주의를 기울입니다.
  • 조건부 확률 p(pi_j | pi_<j, x)을 남은 아이템에 대한 비모수 소프트맥스(non-parametric softmax)로 모델링하여 고차원적 아이템 간 의존성을 가능하게 합니다.
  • 정확히 감독된 교차 엔트로피 손실 또는 클릭 데이터에 기반한 약한 감독 목표를 사용하여 엔드-투-엔드로 학습합니다. RL 기반 목표(REINFORCE) 및 이미 선택된 아이템은 무시하는 단계별 손실을 포함합니다.
  • 추론 시 탐욕적 디코딩 또는 샘플링을 채택합니다; 선형 시간 복잡도의 1단계 디코더 대안을 제공합니다.
  • 순차적 손실 L_pi를 포함하고 초기 슬레이트 위치를 강조하기 위한 선택적 가중치를 도입하는 훈련을 논의합니다.

실험 결과

연구 질문

  • RQ1seq2seq 기반 재랭킹 모델이 슬레이트에서 아이템 간의 고차 상호 작용과 다양성을 포착할 수 있는가?
  • RQ2클릭 스루 데이터의 약한 감독으로 학습하는 것이 슬레이트 수준의 선호를 효과적으로 학습하게 하는가?
  • RQ3seq2slate가 표준 벤치마크 및 실제 데이터에서 전통적인 포인트와 리스트 기반 랭커와 비교해 어떤 차이를 보이는가?
  • RQ4성능과 속도 측면에서 순차 디코딩과 더 저렴한 1단계 디코더 간의 트레이드오프는 무엇인가?

주요 결과

  • Seq2Slate은 다양한 클릭으로 생성된 학습-투-랭크 벤치마크에서 광범위한 베이스라인을 크게 능가합니다.
  • 연속 디코딩은 이전에 선택된 슬레이트 항목을 바탕으로 점수를 조정할 수 있어 아이템 간의 고차 상호 작용을 포착합니다.
  • 그리디 정책을 사용하는 감독적 교차 엔트로피 학습이 일반적으로 훈련 변형들 중 최상의 성능을 보이며, 약한 감독 접근법은 기본 랭커에 비해 일관된 순위 향상을 제공합니다.
  • 실제 데이터에서 Seq2Slate은 프로덕션 기본 랭커에 비해 상당한 이득을 보이고, 순차 디코딩이 핵심 지표에서 단일 단계 디코더보다 우수합니다.
  • 입력 순서에 민감하여 아이템이 무작위 순서로 제시되면 재랭킹이 처음부터 전체 랭킹을 하는 것보다 더 어렵다는 점을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.