[论文解读] Entity-Switched Datasets: An Approach to Auditing the In-Domain Robustness of Named Entity Recognition Models
本文通过在保持上下文不变的前提下,将实体替换为来自不同国家的合理对应实体,引入了实体切换数据集,以审计命名实体识别(NER)模型在域内鲁棒性方面的表现。结果表明,当前最先进(SOTA)的NER模型在不同国家起源的实体上表现出显著的性能差异,对美国和印度实体的F1分数最高,而对越南和印度尼西亚实体的F1分数最低,凸显了当前系统在公平性和泛化能力方面的缺陷。
Named entity recognition systems perform well on standard datasets comprising English news. But given the paucity of data, it is difficult to draw conclusions about the robustness of systems with respect to recognizing a diverse set of entities. We propose a method for auditing the in-domain robustness of systems, focusing specifically on differences in performance due to the national origin of entities. We create entity-switched datasets, in which named entities in the original texts are replaced by plausible named entities of the same type but of different national origin. We find that state-of-the-art systems' performance vary widely even in-domain: In the same context, entities from certain origins are more reliably recognized than entities from elsewhere. Systems perform best on American and Indian entities, and worst on Vietnamese and Indonesian entities. This auditing approach can facilitate the development of more robust named entity recognition systems, and will allow research in this area to consider fairness criteria that have received heightened attention in other predictive technology work.
研究动机与目标
- 为解决在相同领域内对实体不同国家起源的NER模型缺乏系统性评估的问题。
- 探究当前最先进NER模型是否在来自不同国家的实体上具有同等的泛化能力。
- 开发一种可扩展的、程序化的方法,用于生成多样化且保持上下文一致的数据集,以测试域内鲁棒性。
- 揭示NER系统在国家起源相关公平性方面的问题,特别是对代表性不足群体的影响。
- 通过支持模型卡片报告,实现对系统在不同实体群体中优势与劣势的审计。
提出的方法
- 通过将原始文本中的命名实体替换为同类型但来自不同国家的合理实体,生成实体切换数据集。
- 通过使用国家特定的实体替换策略,保持文本连贯性,分别生成涵盖所有实体和仅PERSON(人物)实体的版本。
- 以现有NER数据集(如CoNLL-2003)为基础,利用来自人口最多国家的实体清单,通过自动化方式实施替换。
- 通过保留句法和语义模式(包括常见模板如'ORG newspaper'或'LOC DATE')确保上下文一致性。
- 在原始数据集和切换数据集上评估最先进NER模型(如BERT、Lample、Devlin)的性能,以测量性能变化。
- 对模型预测结果进行错误分析,识别失败模式,如忽略上下文线索、过度依赖词形特征。
实验结果
研究问题
- RQ1当实体被替换为来自不同国家的对应实体时,最先进NER模型的性能如何变化?
- RQ2NER模型在识别非母语起源实体时,在多大程度上依赖词形特征而非上下文线索?
- RQ3即使在相同域内上下文中,是否存在系统性的国家起源间性能差异?
- RQ4实体切换数据集能否有效暴露NER模型在鲁棒性和公平性方面的问题?
- RQ5常见上下文模式(如'报纸名称'、'球队名称')如何影响模型在不同实体起源间的泛化能力?
主要发现
- 最先进NER模型在美籍和印籍实体上取得最高F1分数,BERT在这两类实体上的F1均超过98.0。
- 在越籍和印尼籍实体上性能显著下降,BERT的F1分别仅为89.8和92.0,表明泛化能力较差。
- 即使存在强有力的上下文线索(如'报纸'后接一个名字),模型在切换数据集中仍无法正确将实体识别为ORG,尤其在越籍和印尼籍姓名上表现不佳。
- 模型常基于词形而非上下文进行错误分类,例如在训练数据中模式一致的情况下,仍会错误标注来自其他国籍的姓名。
- 系统对同一模式表现出不一致性:例如,'LOC DATE'模式在越籍实体上被错误分类为LOC,表明其预测行为无视上下文。
- 无论实体来源如何,德籍实体的模型性能始终保持较高水平,表明某些国籍的实体识别能力优于其他国籍,即使其名称属于外来语。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。