[论文解读] Hotel Recommendation System
本文提出了一种基于 Expedia 匿名数据集的酒店推荐系统,结合距离矩阵补全、集成学习和数据泄露利用,以预测用户的前五名酒店集群。该方法在 3800 万条记录上通过特征工程和混合建模,于测试集上实现了 0.496 的 MAP@5 得分,优于单一模型表现。
One of the first things to do while planning a trip is to book a good place to stay. Booking a hotel online can be an overwhelming task with thousands of hotels to choose from, for every destination. Motivated by the importance of these situations, we decided to work on the task of recommending hotels to users. We used Expedia's hotel recommendation dataset, which has a variety of features that helped us achieve a deep understanding of the process that makes a user choose certain hotels over others. The aim of this hotel recommendation task is to predict and recommend five hotel clusters to a user that he/she is more likely to book given hundred distinct clusters.
研究动机与目标
- 解决基于用户搜索行为从 100 个选项中推荐前五名酒店集群的挑战。
- 通过矩阵补全方法处理缺失的地理距离数据,以提升预测准确性。
- 利用数据泄露和集成技术提升在 Kaggle 竞赛排行榜上的表现。
- 利用来自酒店评论的时序、地理和潜在特征建模用户偏好。
- 通过多分类方法按预测预订可能性对酒店集群进行排序。
提出的方法
- 采用矩阵分解方法进行距离矩阵补全,以填补缺失的“原始目的地距离”值,该特征对推荐至关重要。
- 使用主成分分析(20 个主成分)将 149 个潜在目的地特征缩减为更易管理且信息丰富的子集。
- 通过编码每个目的地类型的被拒和被选中的酒店集群(选中为 1,被拒为 -1,其余为 0)构建用户特定的特征向量。
- 将多个模型(XGBoost、随机森林、SGD、朴素贝叶斯)集成,以降低方差和偏差。
- 利用数据泄露,借助测试集中条目仅来自已预订用户的事实,对高置信度预测进行直接标签推断。
- 将距离补全与数据泄露整合到混合模型中,再与集成学习结合,生成最终预测。
实验结果
研究问题
- RQ1如何有效补全缺失的地理距离值以提升酒店推荐性能?
- RQ2测试集中存在的数据泄露在多大程度上影响模型性能与泛化能力?
- RQ3哪些模型组合与特征工程技术能实现最高的前五名酒店集群排序预测准确率?
- RQ4通过主成分分析降维后,酒店评论中的潜在特征在用户偏好建模中起到何种作用?
- RQ5在大规模多分类酒店推荐任务中,集成学习与混合建模策略是否优于单一模型?
主要发现
- 结合数据泄露的集成学习模型在测试集上取得了最高的 MAP@5 得分为 0.496,优于所有其他方法。
- 距离矩阵补全显著提升了模型性能,因为距离被识别为最重要的特征之一。
- 在距离补全基础上,XGBoost 模型在测试集上达到 0.463 的 MAP@5,优于随机森林(0.421)及其他基线模型。
- 尽管数据泄露不可泛化,但其显著提升了排行榜表现,凸显了数据集的缺陷。
- 特征重要性分析确认,用户与酒店的距离以及地理位置是最具影响力的预测因子。
- 主成分分析将 149 个潜在特征缩减为 20 个主成分,重建误差极小,验证了降维方法的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。