Skip to main content
QUICK REVIEW

[论文解读] Automatic Detection of Text Genre

Brett Kessler, Geoffrey Nunberg|ArXiv.org|Jul 8, 1997
Authorship Attribution and Profiling参考文献 10被引用 206
一句话总结

本文提出一种通过将文体建模为语言特征簇(即表层线索,如词汇选择、句法和语篇结构)来实现自动文本文体检测的框架,表明仅使用表层线索即可达到与结构线索相当的性能。其主要贡献在于提出了一种实用且可扩展的文体分类方法,可应用于自然语言处理和信息检索领域。

ABSTRACT

As the text databases available to users become larger and more heterogeneous, genre becomes increasingly important for computational linguistics as a complement to topical and structural principles of classification. We propose a theory of genres as bundles of facets, which correlate with various surface cues, and argue that genre detection based on surface cues is as successful as detection based on deeper structural properties.

研究动机与目标

  • 开发一种系统化且计算上可行的自动文本文体分类方法,适用于大规模异构文本数据库。
  • 探究仅使用表层语言线索是否可实现与深层结构分析相当的文体检测准确率。
  • 构建一个将文体作为相互关联特征簇(如叙事性、正式程度、目标受众)的分类体系,以改进自然语言处理系统的设计。
  • 评估将文体分类作为信息检索和自然语言处理任务中实用工具的可行性。
  • 解决将文体定义为多维非层级分类系统而非单一原子属性的理论挑战。

提出的方法

  • 将文体建模为正交语言特征簇(如叙事性、说服功能、正式程度、目标受众),每个特征簇关联特定的表层线索。
  • 使用布朗语料库作为训练和评估数据集,其中文本被标注了多种文体特征,包括文体、Brow及其他结构特征。
  • 应用逻辑回归(LR)和前馈神经网络,基于表层线索(如词频、词性模式、代词使用)和结构线索(如动词时态分布、从句结构)对文本进行分类。
  • 在表层和结构线索上分别训练和评估模型,通过比较不同特征层级上的性能,评估其相对有效性。
  • 使用变量选择技术减少过拟合,尤其是在语言特征维度较高的情况下。
  • 使用准确率指标按特征评估性能,并与始终预测最常见类别的基线模型进行比较。

实验结果

研究问题

  • RQ1是否可以仅依靠表层语言线索可靠地检测文体,而无需依赖更深层的结构或语义分析?
  • RQ2在不同文体特征上,基于表层线索的文体分类性能与基于结构线索的性能相比如何?
  • RQ3特定特征(如叙事性、观点性、正式程度)在多大程度上与真实语料库中特定的语言模式相关?
  • RQ4为何某些文体类型(如社论、法律文本)的分类准确率较低,这是否可归因于数据稀疏性或语义重叠?
  • RQ5基于特征的文体分解是否能提高下游自然语言处理应用(如信息检索)中文体分类的精确度和实用性?

主要发现

  • 仅使用表层线索即可达到与结构线索相当的文体分类准确率,所有变量的平均性能分别为77.0%(表层)和77.5%(结构)。
  • 在部分变量上,表层线索表现略逊于结构线索(78.4% vs. 78.9%),但差异在二项分布模型下不具统计显著性(p = 0.41)。
  • 系统在报道体和小说文体上的表现尤为出色,而在社论和法律文本上的准确率较低,可能归因于数据稀疏性和语义重叠。
  • 将非小说类误分类为社论,表明这些文体关系密切,可能更适合建模为更广泛非小说类别下的子类型,并增加观点性与机构作者属性等附加特征。
  • Brow特征(正式程度的度量)仅在判断文本是否为高Brow时表现出高准确率,表明文章级别标注可能存在训练数据标签问题。
  • 神经网络在平均性能和部分区分任务中优于逻辑回归,但波动性更高,凸显了在高维特征空间中过拟合的风险,以及变量选择的重要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。