[论文解读] Machine Learning of User Profiles: Representational Issues
本文提出一种混合用户画像表示方法,结合词项级特征(TF-IDF)与基于同义词词典的主题级特征(SFC),以提升基于机器学习的信息过滤系统的预测准确性和可理解性。在IDD新闻浏览器系统中进行的实验表明,与一般化层次结构关联的主题特征显著优于传统的TF-IDF和词项级相关性反馈,尤其在精确率、召回率和稳定性方面表现更优,证明了概念泛化在画像学习中的价值。
As more information becomes available electronically, tools for finding information of interest to users becomes increasingly important. The goal of the research described here is to build a system for generating comprehensible user profiles that accurately capture user interest with minimum user interaction. The research described here focuses on the importance of a suitable generalization hierarchy and representation for learning profiles which are predictively accurate and comprehensible. In our experiments we evaluated both traditional features based on weighted term vectors as well as subject features corresponding to categories which could be drawn from a thesaurus. Our experiments, conducted in the context of a content-based profiling system for on-line newspapers on the World Wide Web (the IDD News Browser), demonstrate the importance of a generalization hierarchy and the promise of combining natural language processing techniques with machine learning (ML) to address an information retrieval (IR) problem.
研究动机与目标
- 开发一种兼具预测准确性与用户可理解性的用户画像表示方法。
- 研究通过同义词词典实现的一般化层次结构对信息过滤中机器学习性能的影响。
- 评估将自然语言处理与机器学习结合用于基于内容的用户画像建模的有效性。
- 比较在画像学习中传统词项加权向量(TF-IDF)与主题级特征(SFC)的性能差异。
- 评估多种学习算法(如C4.5-Rules、AQ15c)在不同特征表示下的性能表现。
提出的方法
- 系统利用IDD新闻浏览器收集用户对个性化报纸文章的反馈,这些反馈随后用于训练画像模型。
- 文本通过TF-IDF词项向量与通过Subject Field Coder(SFC)提取的主题特征进行双重表示,SFC利用上下文与统计信息将文本片段映射到同义词词典类别。
- 通过同义词词典提供的一个一般化层次结构,实现主题级泛化(例如,'潜水'、'皮划艇' → '水上运动')。
- 学习过程应用监督式机器学习算法(C4.5-Rules、AQ15c)从用户对相关性的反馈中归纳画像。
- 采用改进的Rocchio算法作为基线方法,在TF-IDF向量空间中应用相关性反馈更新词项权重。
- 性能通过在两个测试集(USMED与T122)上进行10次运行的平均精确率与召回率进行评估。
实验结果
研究问题
- RQ1通过同义词词典引入一般化层次结构是否能提升用户画像模型的预测准确性?
- RQ2主题级特征(SFC)与传统TF-IDF词项向量在画像学习性能上相比如何?
- RQ3结合词项级与主题级特征的混合表示能否生成更稳定且更准确的画像?
- RQ4机器学习模型(C4.5-Rules、AQ15c)在画像生成中的性能与经典相关性反馈(Rocchio)相比如何?
- RQ5同义词词典的结构与领域相关性在多大程度上影响学习结果?
主要发现
- 基于SFC的画像利用一般化层次结构,实现了最高的预测准确性,在USMED任务上达到0.78的平均精确率与0.73的平均召回率。
- 在T122任务中,SFC画像实现了0.76的平均精确率与0.48的平均召回率,优于TF-IDF与POL特征。
- 在两个测试集上,C4.5-Rules算法在精确率与召回率方面均优于AQ15c与改进的Rocchio方法。
- 尽管TF-IDF画像较为简短,但整体性能较低,在USMED上平均精确率为0.58,在T122上为0.39。
- 采用SFC表示的画像始终比TF-IDF画像更短、更简洁,表明其具有更好的可理解性。
- 结果证实,将同义词词典针对特定领域进行调优可显著提升学习性能,支持使用领域特定的概念层次结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。