QUICK REVIEW

[논문 리뷰] Context-Aware Learning to Rank with Self-Attention

Przemyslaw Pobrotyn, Tomasz Bartczak|arXiv (Cornell University)|2020. 05. 20.

Advanced Image and Video Retrieval Techniques참고 문헌 35인용 수 25

한 줄 요약

이 논문은 훈련 및 추론 과정에서 리스트 내 상호작용을 기반으로 동적으로 항목을 점수 매기는 컨텍스트 인식 신경 순서 매김 모델을 제안한다. 기존의 순서 매김 방법이 항목을 독립적으로 점수 매기는 데 반해, 본 방법은 자기주의(Self-attention)를 활용하여 상호작용을 동적으로 반영한다. MSLR-WEB30K에서 최적의 초모수를 사용한 순서 손실을 적용하여 새로운 SOTA NDCG@5 52.86을 달성하였다.

ABSTRACT

Learning to rank is a key component of many e-commerce search engines. In learning to rank, one is interested in optimising the global ordering of a list of items according to their utility for users.Popular approaches learn a scoring function that scores items individually (i.e. without the context of other items in the list) by optimising a pointwise, pairwise or listwise loss. The list is then sorted in the descending order of the scores. Possible interactions between items present in the same list are taken into account in the training phase at the loss level. However, during inference, items are scored individually, and possible interactions between them are not considered. In this paper, we propose a context-aware neural network model that learns item scores by applying a self-attention mechanism. The relevance of a given item is thus determined in the context of all other items present in the list, both in training and in inference. We empirically demonstrate significant performance gains of self-attention based neural architecture over Multi-LayerPerceptron baselines, in particular on a dataset coming from search logs of a large scale e-commerce marketplace, Allegro.pl. This effect is consistent across popular pointwise, pairwise and listwise losses.Finally, we report new state-of-the-art results on MSLR-WEB30K, the learning to rank benchmark.

연구 동기 및 목표

기존 순서 매김 모델이 추론 과정에서 항목 간 상호의존성을 忽略하는 한계를 해결하기 위해.
자기주의를 통해 리스트 내 항목 간 상下관계를 포착하는 신경 점수 함수를 개발하여 동적 관련성 평가를 가능하게 하기 위해.
기본 벤치마크 및 실제 전자상거래 데이터에서 점수 기반, 쌍별, 리스트 기반 손실에 대해 제안된 모델을 평가하기 위해.
특히 NDCG@5에서 MSLR-WEB30K 벤치마크에서 새로운 최고 성능을 확립하기 위해.
다양한 손실 함수 및 초모수의 일반화 능력과 성능에 미치는 영향을 조사하기 위해.

제안 방법

모든 항목이 리스트 내 다른 항목들에 주목할 수 있도록 다중 헤드 자기주의를 활용한 트랜스포머 아키텍처를 변형하여 컨텍스트 내 항목 관련성 모델링.
입력 순서에 영향을 받지 않는 순열 불변성 있는 학습 가능한 점수 함수를 사용하여 순서 매김 작업에 적합하게 한다.
상대적 항목 위치를 파악할 수 있도록 학습 가능한 위치 인코딩을 적용하여 재순서 매김 시나리오에서 특히 유용하다.
잔차 연결과 피드포워드 네트워크를 활용한 다층 인코더를 사용하여 컨텍스트 표현을 정교화한다.
순서 손실, NDCGLoss 2++, RMSE, ListNet, LambdaRank, ListMLE, RankNet 등 다양한 손실 함수를 사용하여 모델을 훈련한다.
오버피팅을 완화하고 일반화 능력을 향상시키기 위해 드롭아웃, 배치 정규화, 초모수 튜닝을 적용한다.

실험 결과

연구 질문

RQ1자기주의 기반 모델이 손실 함수 뿐 아니라 점수 함수에서도 항목 간 상호의존성을 모델링함으로써 순서 매김 성능 향상을 이룰 수 있는가?
RQ2다양한 손실 함수(점수 기반, 쌍별, 리스트 기반)에서 자기주의 모델은 MLP 기반 모델 대비 성능이 어떻게 다른가?
RQ3위치 인코딩의 포함 여부가 재순서 매김 작업 성능에 영향을 미치는가?
RQ4MSLR-WEB30K에서 가장 우수한 일반화 능력과 높은 NDCG 성능를 제공하는 손실 함수는 무엇인가?
RQ5예를 들어 헤드 수, 레이어 수, 드롭아웃 비율 등 초모수 설정에서 과적합을 피하면서 최적의 성능을 내는 조합은 무엇인가?

주요 결과

자기주의 모델은 MSLR-WEB30K 벤치마크에서 이전 결과를 초월하여 새로운 SOTA NDCG@5 52.86을 달성하였다.
모든 테스트된 손실 함수에서 MLP 기반 모델 대비 뚜렷한 성능 향상을 보였다. 특히 순서 손실, NDCGLoss 2++, LambdaRank, ListMLE 등에서 유의미한 개선이 있었다.
순서 손실로 훈련된 모델가 가장 높은 성능을 기록하였으며, NDCGLoss 2++ 및 LambdaRank와 같은 잘 알려진 손실 함수를 뛰어넘었다.
제거 실험 결과, 드롭아웃 비율 0.3과 은닉 차원 1024가 최적의 성능을 내는 것으로 확인되었으며, 더 높은 드롭아웃 비율 또는 두 개 이상의 어텐션 헤드는 성능 저하를 초래했다.
위치 인코딩이 포함된 모델는 재순서 매김 작업에서 더 높은 성능을 기록하여, 리스트 순서 정렬에서 위치 정보의 가치를 확인하였다.
자기주의로 인해 추론 복잡도가 O(n²)로 증가하지만, 디스틸리케이션, 양자화 또는 프루닝 기법을 통해 지연 민감한 환경에서도 구현이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.