QUICK REVIEW

[论文解读] Forgetting Exceptions is Harmful in Language Learning

Walter Daelemans, Antal van den Bosch|ArXiv.org|Dec 22, 1998

Topic Modeling参考文献 7被引用 40

一句话总结

本文挑战了机器学习领域中关于去除异常值可提升泛化能力的普遍认知，实证表明在自然语言处理任务中保留所有训练样本（尤其是罕见或异常样本）能获得更高的准确率。通过基于记忆的学习方法（ib1-ig）与经编辑的版本及决策树方法（c5.0, igtree）的对比，研究发现遗忘异常值会损害性能，原因在于语言数据具有高度的不连贯性（disjunctivity），其中异常值和次规则性并非噪声，而是实现准确泛化的关键要素。

ABSTRACT

We show that in language learning, contrary to received wisdom, keeping exceptional training instances in memory can be beneficial for generalization accuracy. We investigate this phenomenon empirically on a selection of benchmark natural language processing tasks: grapheme-to-phoneme conversion, part-of-speech tagging, prepositional-phrase attachment, and base noun phrase chunking. In a first series of experiments we combine memory-based learning with training set editing techniques, in which instances are edited based on their typicality and class prediction strength. Results show that editing exceptional instances (with low typicality or low class prediction strength) tends to harm generalization accuracy. In a second series of experiments we compare memory-based learning and decision-tree learning methods on the same selection of tasks, and find that decision-tree learning often performs worse than memory-based learning. Moreover, the decrease in performance can be linked to the degree of abstraction from exceptions (i.e., pruning or eagerness). We provide explanations for both results in terms of the properties of the natural language processing tasks and the learning algorithms.

研究动机与目标

挑战监督学习中广泛持有的信念，即去除异常值可提升泛化能力。
研究在基于记忆的学习中对训练集进行编辑是否会影响自然语言处理任务中的泛化准确率。
比较基于记忆的学习与决策树学习在语言数据上的泛化性能表现。
解释为何在高度不连贯的语言数据上，决策树学习通常表现不如基于记忆的学习。
分析剪枝与特征抽象在语言学习情境下对模型性能的影响。

提出的方法

对基于记忆的学习方法 ib1-ig 与基于低典型性或低类别预测强度（CPS）移除样本的编辑版本进行实证比较。
采用两种标准（典型性与类别预测强度）实施训练集编辑技术，以评估其对泛化效果的影响。
在四项自然语言处理任务（音素转写、词性标注、介词短语依附分析、基本名词短语切分）上，将 ib1-ig 与决策树学习算法 c5.0 和 igtree 进行比较。
在 ib1-ig 中使用信息熵作为特征加权的启发式方法，在 c5.0 和 igtree 中作为分裂准则，以确保学习原则的一致性。
通过友好邻居计数分析实例空间结构，以衡量特征空间中类别不连贯性与聚类同质性。
使用保留测试集上的泛化准确率评估所有任务与方法的模型性能。

实验结果

研究问题

RQ1在基于记忆的学习中，移除低典型性或低类别预测强度的样本是否能提升语言任务的泛化准确率？
RQ2尽管原理相似，为何决策树学习在语言数据上的表现通常劣于基于记忆的学习？
RQ3在高度不连贯的语言数据中，通过剪枝或模型构建对训练样本进行抽象在多大程度上损害性能？
RQ4实例空间中类别不连贯性的结构性特征如何影响不同学习算法的性能表现？
RQ5遗忘异常值的负面影响是否可归因于相关次规则性的丢失，而非噪声？

主要发现

基于低典型性或低类别预测强度对训练样本进行编辑，在所有四项自然语言处理任务中均一致地降低了泛化准确率。
基于记忆的学习方法（ib1-ig）在所测试任务中，其泛化准确率优于编辑后的 ib1-ig 及决策树学习方法（c5.0, igtree）。
ib1-ig 与决策树方法之间的性能差距，主要源于决策树中某些模式（部分匹配的实例集合）无法被访问，即使未进行剪枝。
剪枝进一步损害性能，因为它会移除在测试集中频繁重现的低频高异常值实例，尤其在 gs（音素转写）任务中更为显著。
实例空间中类别高度不连贯——即同质区域小而零散——解释了为何异常值并非噪声，而是实现准确分类所必需的。
即使编辑高达20%的高典型性、高CPS样本，其损害程度最小，但仍无益处，表明选择性遗忘并无优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。