Skip to main content
QUICK REVIEW

[论文解读] An alternative text representation to TF-IDF and Bag-of-Words

Zhixiang Xu, Xu|arXiv (Cornell University)|Jan 28, 2013
Topic Modeling参考文献 25被引用 23
一句话总结

本文提出Dense Cohort of Terms(dCoT),一种无监督方法,通过从罕见词中学习重建频繁词来将稀疏的Bag-of-Words(sBoW)表示转换为稠密向量,方法包括随机移除词语和闭式边缘化。dCoT显著提升了文档分类准确率,尤其在低数据场景下表现优异,其速度比LDA和LSI快达1,000倍,并在Reuters和Dmoz数据集上达到最先进性能。

ABSTRACT

In text mining, information retrieval, and machine learning, text documents are commonly represented through variants of sparse Bag of Words (sBoW) vectors (e.g. TF-IDF). Although simple and intuitive, sBoW style representations suffer from their inherent over-sparsity and fail to capture word-level synonymy and polysemy. Especially when labeled data is limited (e.g. in document classification), or the text documents are short (e.g. emails or abstracts), many features are rarely observed within the training corpus. This leads to overfitting and reduced generalization accuracy. In this paper we propose Dense Cohort of Terms (dCoT), an unsupervised algorithm to learn improved sBoW document features. dCoT explicitly models absent words by removing and reconstructing random sub-sets of words in the unlabeled corpus. With this approach, dCoT learns to reconstruct frequent words from co-occurring infrequent words and maps the high dimensional sparse sBoW vectors into a low-dimensional dense representation. We show that the feature removal can be marginalized out and that the reconstruction can be solved for in closed-form. We demonstrate empirically, on several benchmark datasets, that dCoT features significantly improve the classification accuracy across several document classification tasks.

研究动机与目标

  • 为解决传统sBoW和TF-IDF表示过于稀疏的问题,此类问题在低数据或短文本场景下会阻碍泛化能力。
  • 通过建模罕见词与频繁词之间的共现关系,捕捉词级同义和多义现象。
  • 开发一种高效、无监督的特征学习方法,无需标注数据即可提升下游分类性能。
  • 支持递归应用该转换过程,以发现更高阶的语义结构,如主题。
  • 与LDA和LSI等现有方法相比,实现最先进性能的同时将训练时间显著缩短。

提出的方法

  • dCoT在无标注文本上进行训练,通过以概率p随机移除文档中部分词语来模拟噪声。
  • 模型利用对所有可能移除模式的边缘化推导出的闭式解,从剩余的罕见词中学习重建原始的频繁词。
  • 该转换过程在多层中递归应用,以捕捉词与主题之间的更高阶相关性。
  • 最终的特征映射是原始sBoW向量的线性变换,通过闭式解高效计算,无需迭代优化。
  • 通过强制模型从共现的罕见词中推断缺失的频繁词,隐式学习语义关系。
  • 最终表示为低维稠密向量,适用于SVM等分类器。

实验结果

研究问题

  • RQ1能否通过建模从罕见词中重建频繁词的方式,利用无监督方法改进sBoW表示?
  • RQ2递归应用重建过程是否能增强语义表示并捕捉更高阶的主题?
  • RQ3在低标签数据设置下,dCoT与TF-IDF、LSI和LDA相比,分类准确率如何?
  • RQ4该方法能否在显著快于LDA和LSI等现有方法的同时,实现最先进性能?
  • RQ5在实践中,dCoT的最佳噪声水平和层数是多少?

主要发现

  • dCoT在Reuters和Dmoz基准数据集上均优于TF-IDF、LSI和LDA,尤其在标签数据较少的场景下表现突出。
  • 在Reuters数据集上,dCoT在所有测试配置中均取得最高分类准确率,训练时间仅3分钟,而LDA需3小时。
  • 与LDA和LSI相比,dCoT实现了1,000倍的速度提升,将特征学习时间从数小时缩短至数分钟。
  • 递归应用dCoT(层数l > 1)可提升性能,证实更深的表示能捕捉更高阶的语义相关性。
  • 令人惊讶的是,较高的噪声水平(1 - p)能取得最佳结果,表明激进的噪声破坏反而有助于学习细微的语义关系。
  • dCoT的闭式解支持毫秒级推理和秒级训练,使其在实际应用中具备高度可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。