Skip to main content
QUICK REVIEW

[논문 리뷰] Combinations of Jaccard with Numerical Measures for Collaborative Filtering Enhancement: Current Work and Future Proposal

Ali A. Amer, Loc Nguyen|arXiv (Cornell University)|2021. 01. 01.
Recommender Systems and Techniques참고 문헌 29인용 수 5
한 줄 요약

이 논문은 협업 필터링 성능을 향상시키기 위해 Jaccard(평가값 존재 여부를 반영)와 코사인, 피어슨 상관계수와 같은 수치적 측정법(평가값 크기를 반영)을 조합하는 새로운 하이브리드 유사도 측정법을 제안한다. MovieLens 데이터셋에서 평가한 결과, 개별 유사도 측정법 전부를 능가하는 성능을 보이며, 존재 여부와 크기 정보를 통합하는 것이 추천 정확도 향상에 상당한 기여를 한다는 것을 입증한다.

ABSTRACT

Collaborative filtering (CF) is an important approach for recommendation system which is widely used in a great number of aspects of our life, heavily in the online-based commercial systems. One popular algorithms in CF is the K-nearest neighbors (KNN) algorithm, in which the similarity measures are used to determine nearest neighbors of a user, and thus to quantify the dependency degree between the relative user/item pair. Consequently, CF approach is not just sensitive to the similarity measure, yet it is completely contingent on selection of that measure. While Jaccard - as one of those commonly used similarity measures for CF tasks - concerns the existence of ratings, other numerical measures such as cosine and Pearson concern the magnitude of ratings. Particularly speaking, Jaccard is not a dominant measure, but it is long proven to be an important factor to improve any measure. Therefore, in our continuous efforts to find the most effective similarity measures for CF, this research focuses on proposing new similarity measure via combining Jaccard with several numerical measures. The combined measures would take the advantages of both existence and magnitude. Experimental results on, Movie-lens dataset, showed that the combined measures are preeminent outperforming all single measures over the considered evaluation metrics.

연구 동기 및 목표

  • 협업 필터링에서 단일 유사도 측정법의 한계를 해결하기 위해 공평하게 평가된 항목의 존재 여부를 다루는 Jaccard와 평가값 크기 민감도를 지닌 수치적 측정법을 조합하는 것.
  • 하이브리드 측정법이 단독으로 사용되는 Jaccard, 코사인, 피어슨 상관계수보다 추천 정확도에서 뛰어나다는 것을 경험적으로 검증하는 것.
  • 데이터 희소성과 사용자/아이템 상관관계를 다루는 데까지 90개의 유사도 측정법을 포함하는 종합적인 CF 프레임워크 개발의 기반을 마련하는 것.
  • AI 기법(예: CNN, SVM, word2vec)을 유사도 측정법과 통합하여 협업 필터링 성능을 향상시키는 데 대한 탐색

제안 방법

  • Jaccard와 코사인 및 피어슨 상관계수(PCC)를 조합하여 하이브리드 형태의 새로운 유사도 측정법을 제안하며, 코사인+Jaccard 및 PCC+Jaccard와 같은 조합을 포함한다.
  • 최종 유사도 점수에 Jaccard의 집합 기반 중첩과 수치적 측정법의 값 기반 유사도를 통합하는 선형 조합 방식을 사용한다.
  • 제안된 하이브리드 측정법을 사용하여 K-최근접 이웃(KNN) 알고리즘을 적용해 평가 예측을 위한 유사한 사용자/아이템을 식별한다.
  • MAE, RMSE, 정밀도, 재현율, F1 등의 표준 평가 지표를 사용하여 MovieLens 데이터셋에서 성능을 평가한다.
  • AI 모델(예: CNN, SVM, MNB)을 유사도 계산에 통합하는 90개의 유사도 측정법까지 포함하는 미래의 프레임워크를 설계한다.
  • word2vec(C-BOW 및 스킵그램)과 감성 분석을 활용해 유사도 모델 내 사용자 및 아이템 표현을 풍부화할 계획이다.

실험 결과

연구 질문

  • RQ1Jaccard와 수치적 유사도 측정법(예: 코사인, PCC)을 조합하면 단독으로 사용할 경우보다 더 높은 추천 정확도를 달성할 수 있는가?
  • RQ2실제 세계 데이터셋에서 MAE, RMSE, 정밀도, F1 등의 다양한 평가 지표에서 하이브리드 측정법은 어떻게 성능을 내는가?
  • RQ3Jaccard를 통한 평가값 존재 여부의 포함이 희소 데이터 환경에서 수치적 측정법의 강건성에 얼마나 기여하는가?
  • RQ490개 이상의 측정법을 포함하는 종합적인 유사도 측정 프레임워크를 체계적으로 개발하고 평가할 수 있는가? 이는 데이터 희소성에 대응하는 확장성과 적응성에 기여하는가?

주요 결과

  • Jaccard와 코사인 또는 PCC를 조합한 하이브리드 유사도 측정법은 MovieLens 데이터셋에서 모든 평가 지표에서 개별 유사도 측정법 전부를 뛰어넘는 일관성 있는 성능을 보였다.
  • 제안된 병합 측정법은 MAE, RMSE, 정밀도, 재현율, F1 측면에서 뛰어난 성능을 보이며, 정확도 향상과 강건성 향상을 시사한다.
  • PSSIJ 및 PSSJ와 같은 특정 조합은 정밀도에서 r=0.1에서 r=0.6까지의 다양한 평가 기준에서 성능 향상을 보이며, 평가 기준에 관계없이 뛰어난 일반화 능력을 입증한다.
  • 이 연구는 Jaccard가 특히 데이터 희소성 처리 및 예측 신뢰도 향상에 있어 수치적 측정법 향상에 상당한 영향을 미친다는 것을 확인한다.
  • 결과는 평가값 존재 여부와 크기 정보를 통합하면 KNN 기반 협업 필터링에서 더 효과적인 이웃 선택이 가능하다는 가설을 지지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.