Skip to main content
QUICK REVIEW

[논문 리뷰] Word2Vec applied to Recommendation: Hyperparameters Matter

Hugo Caselles-Dupré, Florian Lesaint|arXiv (Cornell University)|2018. 04. 11.
Topic Modeling참고 문헌 22인용 수 45
한 줄 요약

이 논문은 권장 설정에서 Skip-gram with Negative Sampling(SGNS)을 대규모 하이퍼파라미터 검색을 수행하고, 데이터/작업 의존적인 하이퍼파라미터 튜닝(특히 음수 샘플링 분포, 에포크 수, 하위 샘플링, 창 크기)이 NEP 성능을 크게 향상시키며, NLP 작업과 다른 최적의 선택을 보인다는 것을 보인다.

ABSTRACT

Skip-gram with negative sampling, a popular variant of Word2vec originally designed and tuned to create word embeddings for Natural Language Processing, has been used to create item embeddings with successful applications in recommendation. While these fields do not share the same type of data, neither evaluate on the same tasks, recommendation applications tend to use the same already tuned hyperparameters values, even if optimal hyperparameters values are often known to be data and task dependent. We thus investigate the marginal importance of each hyperparameter in a recommendation setting through large hyperparameter grid searches on various datasets. Results reveal that optimizing neglected hyperparameters, namely negative sampling distribution, number of epochs, subsampling parameter and window-size, significantly improves performance on a recommendation task, and can increase it by an order of magnitude. Importantly, we find that optimal hyperparameters configurations for Natural Language Processing tasks and Recommendation tasks are noticeably different.

연구 동기 및 목표

  • 추천을 위한 Word2Vec 임베딩이 NLP와 다른 하이퍼파라미터를 필요로 할 수 있음을 동기를 부여한다.
  • 주요 SGNS 하이퍼파라미터가 NEP 성능에 미치는 한계효과를 다양한 데이터셋에서 정량화한다.
  • 데이터/작업 특성에 맞춘 하이퍼파라미터 최적화가 기본 구성보다 상당한 이점을 가져온다는 것을 보여준다.
  • 표준 SGNS와 Meta-Prod2Vec를 비교하고 콜드 스타트 상황을 분석한다.

제안 방법

  • 음수 샘플링이 포함된 SGNS(SGNS)의 개요와 하이퍼파라미터의 역할: alpha(음수 샘플링 분포), n(에포크), L(창 크기), t(서브샘플링 임계값).
  • 7개의 하이퍼파라미터에 대해 4개 데이터셋(두 음악 데이터, 하나의 전자상거래 데이터, 하나의 클릭스트림 데이터)에서 대규모 하이퍼파라미터 그리드 탐색을 수행한다.
  • train/validation/test 구간에서 HR@K 및 NDCG@K 지표로 NEP를 이용해 아이템 임베딩을 평가한다.
  • alpha를 조정 가능하도록 Gensim 구현을 수정하고 Out-of-the-box SGNS, Optimized SGNS, Fully Optimized SGNS, Meta-Prod2Vec 구성을 비교한다.
  • 95% 신뢰구간으로 결과를 보고 하이퍼파라미터의 중요도와 데이터 의존성에 대한 분석을 제공한다.

실험 결과

연구 질문

  • RQ1권장 작업에서 SGNS 하이퍼파라미터가 NEP 성능에 영향을 미치는가?
  • RQ2자연어처리용으로 조정된 기본값이 권장에 적합한가, 아니면 데이터/작업 특성에 맞춘 설정이 더 나은가?
  • RQ3하이퍼파라미터 최적화가 다양한 도메인(음악, 전자상거래, 클릭스트림) 및 콜드 스타트 상황에서 성능에 어떤 영향을 미치는가?
  • RQ4권장 작업에 맞춰 하이퍼파라미터를 최적화했을 때 MetaProd2vec가 SGNS와 어떻게 비교되는가?

주요 결과

모델30Music HR@1030Music NDCG@10Deezer HR@10Deezer NDCG@10E-commerce HR@10E-commerce NDCG@10Click-stream HR@10Click-stream NDCG@10
Out-of-the-box SGNS11.16 ± 0.10.099 ± 0.0018.13 ± 0.10.061 ± 0.00422.21 ± 0.10.159 ± 0.0013.07 ± 0.10.018 ± 0.001
Optimized SGNS22.24 ± 0.10.166 ± 0.00114.43 ± 0.10.100 ± 0.00126.17 ± 0.10.181 ± 0.00124.14 ± 0.50.130 ± 0.003
Fully optimized SGNS23.75 ± 0.10.174 ± 0.00115.73 ± 0.10.108 ± 0.00126.34 ± 0.10.183 ± 0.00126.26 ± 0.20.147 ± 0.002
MetaProd2vec (Vasile et al., 2016)19.41 ± 0.20.142 ± 0.00114.24 ± 0.10.097 ± 0.001----
Fully optimized MetaProd2vec20.85 ± 0.10.152 ± 0.00115.62 ± 0.10.108 ± 0.001----
  • 하이퍼파라미터 최적화가 두 음악 데이터셋에서 기본값에 비해 성능을 대략 두 배로 향상시킨다.
  • 알파(alpha)(음수 샘플링 분포)의 최적화가 큰 이득을 가져오며, 연구 데이터셋에서는 최적의 알파가 음수이다. 이는 NLP 기본값(alpha=0.75)과 반대이다.
  • 최적 구성이 유사한 알파, 서브샘플링, 창 크기를 공유한다.
  • 데이터셋에 따라 성능 향상이 다르게 나타나며, Click-Stream 데이터셋은 하이퍼파라미터 튜닝으로 최대 한 자릿수 차이의 개선을 보이고, 전자상거래의 이득은 상당하다.
  • 완전 최적화 SGNS가 Out-of-the-box SGNS를 능가하고 음악 데이터셋에서 종종 Meta-Prod2vec보다 우수하며, 반면 Meta-Prod2vec는 특히 콜드 스타트 상황에서 경쟁력이 있을 수 있다.
  • 콜드 스타트 테스트에서 적절히 최적화된 MetaProd2vec가 SGNS 성능에 근접하여, 표준 방법의 최적화가 특화된 방법과 맞먹을 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.