[论文解读] Explaining and Improving Model Behavior with k Nearest Neighbor Representations
本文提出在深度神经网络隐藏表征上使用k近邻(kNN)方法,以解释和改进自然语言处理(NLP)模型的行为,特别是在自然语言蕴涵(NLI)任务中的表现。通过检索与测试输入最相似的训练样本,kNN能够解释预测结果,揭示虚假相关性,识别误标注数据,并提升模型鲁棒性——在不更新模型参数的前提下,在对抗性数据集和增强型NLI数据集上实现了最先进性能。
Interpretability techniques in NLP have mainly focused on understanding individual predictions using attention visualization or gradient-based saliency maps over tokens. We propose using k nearest neighbor (kNN) representations to identify training examples responsible for a model's predictions and obtain a corpus-level understanding of the model's behavior. Apart from interpretability, we show that kNN representations are effective at uncovering learned spurious associations, identifying mislabeled examples, and improving the fine-tuned model's performance. We focus on Natural Language Inference (NLI) as a case study and experiment with multiple datasets. Our method deploys backoff to kNN for BERT and RoBERTa on examples with low model confidence without any update to the model parameters. Our results indicate that the kNN approach makes the finetuned model more robust to adversarial inputs.
研究动机与目标
- 开发一种与模型无关的方法,实现对NLP模型行为的大规模可解释性分析,超越单个预测的解释。
- 利用kNN检索训练实例,识别并诊断NLI数据集中虚假相关性和误标注样本。
- 通过在微调模型不确定时动态回退到kNN预测,提升模型鲁棒性。
- 通过kNN邻居分析识别对模型预测具有高度影响力的训练样本,实现语料级别的可解释性。
- 证明在隐藏表征上应用kNN可获得比深度模型本身更优的决策边界,尤其在对抗性输入上表现更优。
提出的方法
- 将kNN应用于微调后的BERT和RoBERTa模型的隐藏表征,为每个测试输入检索最相似的k个训练样本。
- 在推理时使用置信度阈值,决定是否采用模型预测,或回退到kNN预测。
- 利用FAISS进行向量搜索,使kNN方法在计算上高效,支持大规模数据集的可扩展性。
- 利用kNN分析误分类样本,揭示虚假相关性的模式及潜在的误标注训练实例。
- 在多个NLI数据集(包括SNLI、MNLI、ANLI和HANS)上应用该方法,并对句法和词汇模式进行消融实验与细粒度分析。
- 将kNN预测与模型预测进行插值,以提升泛化能力与鲁棒性,尤其在具有挑战性的样本上表现更优。
实验结果
研究问题
- RQ1kNN在隐藏表征上能否提供一种可扩展的、与模型无关的方法,实现对NLP模型行为的语料级可解释性?
- RQ2kNN在揭示导致模型失效的虚假相关性和误标注样本方面效果如何?
- RQ3在对抗性样本和分布外样本上,回退到kNN预测是否能提升模型鲁棒性?
- RQ4kNN能否检索出解释模型为何做出特定预测的训练样本,从而提供比注意力机制或显著性图更忠实的可解释性?
- RQ5kNN在NLI基准测试上,特别是在困难或增强型数据上,性能提升程度如何?
主要发现
- kNN回退在增强型SNLI和ANLI数据集上显著提升性能,BERT在两者上的F1分别达到0.95和0.96,优于标准微调模型。
- 在HANS基准上,kNN将RoBERTa在困难的'not-entail'类别上的F1从52.7%提升至54.7%,证明其鲁棒性增强。
- kNN检索误分类样本时,常能识别出误标注的训练实例,从而支持数据质量诊断。
- 与基础模型相比,kNN学习到的决策边界更精细,对导致模型预测翻转的小扰动更具鲁棒性。
- 在小规模数据集上,kNN的推理速度约为影响函数的300倍,且在大规模数据集上速度优势进一步扩大。
- 可视化结果表明,kNN预测与人工标注的推理过程更一致,尤其在句法和词汇模式(如否定和子序列匹配)上表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。