[论文解读] Stylistic Fingerprints, POS-tags and Inflected Languages: A Case Study in Polish
本研究通过对比未还原词形的词汇、还原词形后的词元以及词性标注n-gram,探究了波兰语(一种屈折语)中的风格指纹,用于作者归属。在波兰小说语料库上使用监督分类方法,发现尽管最常用词(MFWs)的表现优于词形还原词和词性标签,但后者仍具有显著贡献——保留了高达约75%的归属准确率,证明尽管整体性能较低,句法结构仍编码了稳定且具有作者特异性的信号。
In stylometric investigations, frequencies of the most frequent words (MFWs) and character n-grams outperform other style-markers, even if their performance varies significantly across languages. In inflected languages, word endings play a prominent role, and hence different word forms cannot be recognized using generic text tokenization. Countless inflected word forms make frequencies sparse, making most statistical procedures complicated. Presumably, applying one of the NLP techniques, such as lemmatization and/or parsing, might increase the performance of classification. The aim of this paper is to examine the usefulness of grammatical features (as assessed via POS-tag n-grams) and lemmatized forms in recognizing authorial profiles, in order to address the underlying issue of the degree of freedom of choice within lexis and grammar. Using a corpus of Polish novels, we performed a series of supervised authorship attribution benchmarks, in order to compare the classification accuracy for different types of lexical and syntactic style-markers. Even if the performance of POS-tags as well as lemmatized forms was notoriously worse than that of lexical markers, the difference was not substantial and never exceeded ca. 15%.
研究动机与目标
- 评估词形还原词和词性标签n-gram作为波兰语等高度屈折语言的风格特征在作者归属中的有效性。
- 解决由于屈折语言中形态丰富性导致的数据稀疏性问题,即词形激增且频率稀疏化。
- 探究通过词性标签获得的语法特征,是否优于传统词汇标记(如MFWs)在捕捉作者风格指纹方面的表现。
- 检验尽管性能较低,句法结构是否在高度屈折语言中仍保留稳定且有意义的作者信号。
- 确定词形还原在波兰语等形态丰富的语言中是否提升或降低作者归属的准确率。
提出的方法
- 构建了包含189部波兰小说的语料库,并划分为189部、99部和30部小说的子集,以覆盖不同规模的数据集。
- 提取三类风格特征:(1) 最常用词(MFWs),(2) 使用NLP词形还原技术得到的词形还原词,(3) 来自词性标注的词性标签n-gram(1-至3-gram)。
- 应用四种监督分类方法:余弦差分法(Cosine Delta)、支持向量机(SVM)、朴素贝叶斯分类器(NSC)和基于距离的分类器(Delta),以评估归属准确率。
- 使用Wilcoxon符号秩检验评估不同特征类型在不同数据集和分类器之间的性能差异的统计显著性。
- 使用F1分数评估性能,并通过曲线可视化F1分数随特征向量大小的变化情况。
- 比较完整词性标签、首段词性标签(严格词性标签)以及不同长度(1-至3-gram)的词性标签n-gram的性能。
实验结果
研究问题
- RQ1在波兰语等高度屈折语言中,词形还原是否提升作者归属准确率,还是因去除形态变化而削弱了信号?
- RQ2在波兰语的作者归属中,词性标签n-gram与词汇特征(MFWs和词形还原词)相比,分类准确率如何?
- RQ3是否存在特定的n-gram长度(如1-gram、2-gram、3-gram)能最优捕捉作者风格差异?
- RQ4尽管绝对性能较低,句法特征(通过词性标签序列体现)在多大程度上仍能保持稳定且可识别的作者指纹?
- RQ5在形态丰富的语言中,词汇特征与句法特征对作者归属的相对贡献如何?
主要发现
- 未还原词形的最常用词(MFWs)在所有数据集和分类器中均显著优于词形还原词,且差异具有统计学意义(189部和99部小说的p < 0.00001)。
- 词形还原词与MFWs相比,性能差距最高可达约15%,表明在波兰语中,词形还原可能去除了与风格相关的有效信息。
- 总体而言,词性标签n-gram的表现不如词汇标记,但其信号强大且稳定,即使在最差的特征配置下,也能达到最大F1分数的约75%。
- 对于词性标签,3-gram通常优于1-gram和2-gram,尤其在严格词性标签变体中表现更优,表明句法序列比孤立标签具有更强的区分能力。
- 完整词性标签的性能在不同n-gram长度间变化平缓,表明其具有鲁棒性,但对超参数调优的敏感性较低。
- 即使最差的词性标签配置,F1分数也达到约0.75,表明仅凭句法特征本身在波兰语作者归属中已具有高度信息量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。