Skip to main content
QUICK REVIEW

[论文解读] DOC: Deep Open Classification of Text Documents

Lei Shu, Hu Xu|arXiv (Cornell University)|Sep 25, 2017
Text and Document Classification Technologies参考文献 18被引用 24
一句话总结

本文提出DOC(深度开放分类),一种新颖的深度学习方法,用于文本分类,通过将传统模型扩展至检测分布外(新类别)文档。通过使用一对多Sigmoid输出层并结合高斯拟合以优化拒识阈值,DOC在仅使用25%已见类别的情况下,在20 Newsgroups数据集上实现了高达82.3%的宏F1分数,显著优于SOTA方法如OpenMax和cbsSVM。

ABSTRACT

Traditional supervised learning makes the closed-world assumption that the classes appeared in the test data must have appeared in training. This also applies to text learning or text classification. As learning is used increasingly in dynamic open environments where some new/test documents may not belong to any of the training classes, identifying these novel documents during classification presents an important problem. This problem is called open-world classification or open classification. This paper proposes a novel deep learning based approach. It outperforms existing state-of-the-art techniques dramatically.

研究动机与目标

  • 解决封闭世界文本分类在新类别频繁出现的动态环境中所面临的局限性。
  • 开发一种能够同时对已知类别进行分类并拒识属于新类别、未见类别的文档的深度学习模型。
  • 通过减少开放空间风险并优化拒识阈值,提升开放世界分类性能,且无需未见类别的验证数据。
  • 实现鲁棒、可泛化的开放分类,在大多数测试文档属于未见类别时仍能保持高精确率与高召回率。

提出的方法

  • DOC采用基于CNN的架构,结合词嵌入和多个卷积滤波器(尺寸为3、4、5),以从文本中提取分层特征。
  • 最终层使用一对多Sigmoid激活函数而非Softmax,以降低开放空间风险,并实现已知类别与未知类别之间更优的分离。
  • 对每个类别的logits应用高斯拟合过程,以确定最优、类特定的拒识阈值(t_i),替代固定的t=0.5基线。
  • 模型通过在已见类别上使用交叉熵损失并针对未知类别进行拒识,端到端进行训练,无需未见类别的先验样本。
  • 该架构支持增量学习,并可通过迁移至视觉任务证明其在文本和图像领域均具有适应性。
  • 评估采用一对多多分类设置,并增加一个“拒识”类别,宏F1在m+1个类别上计算(m个已见类别 + 1个拒识类别)。

实验结果

研究问题

  • RQ1深度学习模型是否能在未见新类别样本的前提下,有效检测分布外的文本文档?
  • RQ2一对多Sigmoid输出层相较于Softmax,在降低开放世界分类中的开放空间风险方面表现如何?
  • RQ3与固定阈值(如t=0.5)相比,对logits进行高斯拟合在拒识阈值选择方面能提升多少?
  • RQ4在极端开放世界条件下(75%或以上测试文档属于未见类别),DOC表现如何?
  • RQ5DOC是否具备跨领域泛化能力,并在文本和图像开放分类任务中均优于SOTA方法?

主要发现

  • 在20 Newsgroups数据集上,仅使用25%已见类别时,DOC实现了82.3%的宏F1分数,显著优于OpenMax(35.7%)和cbsSVM(59.3%)。
  • 在25%已见类别的50类评论数据集中,DOC实现了61.2%的宏F1分数,远超OpenMax(41.6%)和cbsSVM(55.7%)。
  • 在少样本设置(25%和50%已见类别)下,DOC始终优于DOC(t=0.5),证明了高斯拟合阈值的有效性。
  • 在100%已见类别的设定下(封闭世界),DOC在20 Newsgroups上仍实现了92.6%的宏F1分数,优于OpenMax(91.9%)和cbsSVM(85.2%)。
  • DOC在不同数据集上表现出强鲁棒性:在最具挑战性的开放世界场景(25%已见类别)下,其性能相比OpenMax最高提升了27个百分点。
  • 该方法无需未见类别的验证数据,而OpenMax依赖此类数据进行超参数调优,因此DOC更具实用性与可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。