QUICK REVIEW

[논문 리뷰] Hotel Recommendation System

Aditi Mavalankar, Ajitesh Gupta|arXiv (Cornell University)|2019. 01. 01.

Recommender Systems and Techniques참고 문헌 4인용 수 6

한 줄 요약

이 논문은 익명화된 Expedia 데이터셋을 사용하여 거리 행렬 보완, 앙상블 학습, 데이터 泄漏 활용을 조합한 호텔 추천 시스템을 제안한다. 사용자의 상위 5개 호텔 클러스터를 예측하기 위해 제안되며, 3800만 건의 데이터에서 테스트 세트에서 MAP@5 점수 0.496를 기록하여 개별 모델을 초월하는 하이브리드 모델링 및 특징 공학을 통해 성능을 향상시켰다.

ABSTRACT

One of the first things to do while planning a trip is to book a good place to stay. Booking a hotel online can be an overwhelming task with thousands of hotels to choose from, for every destination. Motivated by the importance of these situations, we decided to work on the task of recommending hotels to users. We used Expedia's hotel recommendation dataset, which has a variety of features that helped us achieve a deep understanding of the process that makes a user choose certain hotels over others. The aim of this hotel recommendation task is to predict and recommend five hotel clusters to a user that he/she is more likely to book given hundred distinct clusters.

연구 동기 및 목표

사용자 검색 행동을 바탕으로 100개의 옵션 중 상위 5개 호텔 클러스터를 추천하는 문제에 대응하기 위해.
행렬 보완을 통해 누락된 지리적 거리 데이터를 처리하여 예측 정확도를 향상시키기 위해.
Kaggle 경진대회 랭킹에서 성능을 향상시키기 위해 데이터 泄漏와 앙상블 기법을 활용하기 위해.
호텔 리뷰에서 유도된 시간적, 지리적, 잠재적 특징을 사용하여 사용자 선호도를 모델링하기 위해.
다중 클래스 분류를 통해 예측된 예약 가능성에 따라 호텔 클러스터를 랭킹하기 위해.

제안 방법

핵심 특징인 '원천 목적지 거리' 값의 누락된 값을 행렬 인화를 활용한 행렬 보완 기법을 적용하여 보간하였다.
149개의 잠재 목적지 특징을 20개의 구성요소로 압축하기 위해 주성분 분석(PCA)을 사용하였다.
각 목적지 유형별로 거절된 및 선택된 호텔 클러스터를 인코딩하여 사용자별 특징 벡터를 구성하였다(선택된 경우 1, 거절된 경우 -1, 그 외 0).
XGBoost, 랜덤 포레스트, SGD, 나이브 베이즈 등의 여러 모델을 앙상블하여 분산과 편향을 감소시켰다.
테스트 세트의 항목이 모두 예약한 사용자들로부터만 구성되어 있음을 활용하여 높은 신뢰도의 예측에 대해 직접 레이블을 추론함으로써 데이터 泄漏를 활용하였다.
거리 보완과 데이터 泄漏를 하이브리드 모델로 통합한 후, 앙상블 학습을 통해 최종 예측을 수행하였다.

실험 결과

연구 질문

RQ1누락된 지리적 거리 값은 어떻게 효과적으로 보완하여 호텔 추천 성능을 향상시킬 수 있는가?
RQ2테스트 세트의 데이터 泄漏가 모델 성능과 일반화 능력에 어느 정도의 영향을 미치는가?
RQ3다양한 모델과 특징 공학 기법의 조합 중에서 상위 5개 호텔 클러스터 랭킹 예측 정확도가 가장 높은 조합은 무엇인가?
RQ4주성분 분석(PCA)을 통해 감소된 호텔 리뷰의 잠재적 특징이 사용자 선호도 모델링에 기여하는 방식은 무엇인가?
RQ5대규모 다중 클래스 호텔 추천 과제에서 앙상블 학습과 하이브리드 모델링 전략이 개별 모델을 초월할 수 있는가?

주요 결과

데이터 泄漏를 활용한 앙상블 학습 모델이 가장 높은 테스트 MAP@5 점수 0.496를 기록하여 모든 다른 방법을 압도하였다.
거리 행렬 보완이 모델 성능 향상에 크게 기여하였으며, 거리가 가장 중요한 특징 중 하나로 확인되었다.
거리 보완을 적용한 XGBoost는 테스트 MAP@5 0.463을 기록하여 랜덤 포레스트(0.421) 및 기타 기본 모델을 모두 초월하였다.
데이터 泄漏는 일반화 가능성은 없지만 랭킹 성능 향상에 강력한 기여를 하였으며, 데이터셋의 결함을 드러내었다.
특징 중요도 분석 결과, 사용자-호텔 간 거리와 지리적 위치가 가장 영향력 있는 예측 변수로 확인되었다.
PCA를 활용한 특징 압축은 149개의 잠재 특징을 20개의 구성요소로 줄였고, 재구성 오차는 최소화되어 차원 축소의 유효성을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.