QUICK REVIEW

[논문 리뷰] Hierarchical Temporal Convolutional Networks for Dynamic Recommender Systems

Jiaxuan You, Yichen Wang|arXiv (Cornell University)|2019. 04. 08.

Recommender Systems and Techniques참고 문헌 40인용 수 23

한 줄 요약

이 논문은 RNN을 사용해 세션 간 장기적 사용자 관심사를 모델링하고, 시간적 컨volution 네트워크(TCN)를 사용해 세션 내 단기적 동적 변화를 포착함으로써 빠르고 확장 가능하며 정확한 동적 추천을 가능하게 하는 이중 수준의 딥러닝 아키텍처인 계층적 시간 컨볼루션 네트워크(HierTCN)를 제안한다. HierTCN는 유사한 모델 대비 2.5배 빠르고 메모리 사용량을 90% 줄였으며, 최신 기술 대비 재현율(recall)은 18% 높고 평균 역수 순위(MRR)는 10% 높은 성능을 달성한다.

ABSTRACT

Recommender systems that can learn from cross-session data to dynamically predict the next item a user will choose are crucial for online platforms. However, existing approaches often use out-of-the-box sequence models which are limited by speed and memory consumption, are often infeasible for production environments, and usually do not incorporate cross-session information, which is crucial for effective recommendations. Here we propose Hierarchical Temporal Convolutional Networks (HierTCN), a hierarchical deep learning architecture that makes dynamic recommendations based on users' sequential multi-session interactions with items. HierTCN is designed for web-scale systems with billions of items and hundreds of millions of users. It consists of two levels of models: The high-level model uses Recurrent Neural Networks (RNN) to aggregate users' evolving long-term interests across different sessions, while the low-level model is implemented with Temporal Convolutional Networks (TCN), utilizing both the long-term interests and the short-term interactions within sessions to predict the next interaction. We conduct extensive experiments on a public XING dataset and a large-scale Pinterest dataset that contains 6 million users with 1.6 billion interactions. We show that HierTCN is 2.5x faster than RNN-based models and uses 90% less data memory compared to TCN-based models. We further develop an effective data caching scheme and a queue-based mini-batch generator, enabling our model to be trained within 24 hours on a single GPU. Our model consistently outperforms state-of-the-art dynamic recommendation methods, with up to 18% improvement in recall and 10% in mean reciprocal rank.

연구 동기 및 목표

기존의 순차 모델이 대규모 동적 추천 시스템에서 높은 메모리 사용량, 느린 학습 속도, 부족한 세션 간 모델링으로 인해 약점이 있음을 해결하기 위해.
세션 간 장기적 사용자 관심사와 세션 내 단기적 행동을 효율적으로 포착할 수 있는 확장 가능하고 프로덕션 환경에 적합한 아키텍처를 설계하기 위해.
수십억 건의 상호작용과 수백만 명의 사용자가 포함된 데이터셋에서 실시간 웹 스케일 추천을 가능하게 하기 위해.
실제 데이터셋에서 기존의 RNN 기반 및 CNN 기반 모델보다 정확도와 효율성 측면에서 뛰어난 성능을 내기 위해.

제안 방법

HierTCN는 고수준 RNN 모델을 사용해 다수의 세션에 걸친 진화하는 장기적 사용자 관심사를 인코딩하는 계층적 이중 수준 아키텍처를 채택한다.
저수준 모델은 시간적 컨볼루션 네트워크(TCN)를 사용해 세션 내 단기적 상호작용을 처리하고, 장기적 표현과 결합하여 동적 예측을 수행한다.
단일 GPU에서 24시간 이내에 학습이 가능하도록 큐 기반 미니배치 생성기와 효과적인 데이터 캐싱 기법을 적용한다.
순위 성능 향상을 위해 허지 손실(hinge loss)에 음성 샘플링을 적용하고, 학습 안정화와 과적합 방지를 위해 배치 정규화(batch normalization)와 드롭아웃을 사용한다.
수백만 명의 사용자와 아이템을 함께 모델링할 수 있도록 설계되어, 확장 가능한 오프라인 학습과 온라인 추론을 지원한다.
자기회귀적 예측을 위해 TCN에서 인과적 컨볼루션을 활용하고, 확장된 컨볼루션과 국소적 수신 필드를 통해 계산 효율성을 확보한다.

실험 결과

연구 질문

RQ1계층적 딥러닝 모델이 동적 추천을 위해 세션 간 장기적 사용자 관심사와 세션 내 단기적 동적 변화를 효과적으로 포착할 수 있는가?
RQ2대규모 실세계 환경에서 HierTCN는 RNN 기반 및 CNN 기반 모델 대비 성능과 효율성 측면에서 어떻게 비교되는가?
RQ3다양한 손실 함수와 정규화 기법이 모델 일반화 및 수렴에 어떤 영향을 미치는가?
RQ4역사적 상호작용 수와 세션 간 시간 간격이 모델 성능에 어떻게 영향을 미치는가?
RQ5제안된 아키텍처가 수십억 건의 상호작용과 수백만 명의 사용자가 포함된 프로덕션 환경에 확장 가능한가?

주요 결과

HierTCN는 17억 건의 상호작용을 포함한 대규모 Pinterest 데이터셋에서 최신 기술 대비 최대 18% 높은 재현율과 10% 높은 평균 역수 순위(MRR)를 달성한다.
TCN 기반 모델 대비 학습 속도는 2.5배 빠르고 데이터 메모리 사용량은 90% 감소하여 단일 GPU에서 24시간 이내에 학습이 가능하다.
허지 손실에 음성 샘플링을 적용하면 L2 손실 대비 Recall@1은 20% 향상되고 MRR은 10% 향상되며, NCE 기반 목적함수를 능가한다.
배치 정규화만으로도 성능 향상과 수렴 속도 향상이 가능하며, 드롭아웃과 조합하면 추가적인 성능 향상과 과적합 완화 효과를 얻을 수 있다.
역사적 상호작용이 많을수록 세션 간 간격이 짧을수록 성능이 향상되며, 이는 다양한 사용자 행동 패턴에 대한 강력한 일반화 능력을 시사한다.
시각화 결과 HierTCN는 음식과 가구 등 다양한 관심사를 효과적으로 균형 잡고 있는 반면, 룰 기반 및 단일 수준 모델은 주로 우세한 아이템 유형에 과적합하는 경향을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.