[论文解读] Teaching Pretrained Models with Commonsense Reasoning: A Preliminary KB-Based Approach
该论文提出一种基于知识库的方法,通过从ConceptNet的结构化知识中生成1.67亿道多项选择题,显式地教会预训练语言模型进行常识推理。通过在这些题目上微调模型,其在常识推理任务上的表现显著提升,尤其是在少样本设置下,在CommonsenseQA上最高实现18%的绝对准确率提升。
Recently, pretrained language models (e.g., BERT) have achieved great success on many downstream natural language understanding tasks and exhibit a certain level of commonsense reasoning ability. However, their performance on commonsense tasks is still far from that of humans. As a preliminary attempt, we propose a simple yet effective method to teach pretrained models with commonsense reasoning by leveraging the structured knowledge in ConceptNet, the largest commonsense knowledge base (KB). Specifically, the structured knowledge in KB allows us to construct various logical forms, and then generate multiple-choice questions requiring commonsense logical reasoning. Experimental results demonstrate that, when refined on these training examples, the pretrained models consistently improve their performance on tasks that require commonsense reasoning, especially in the few-shot learning setting. Besides, we also perform analysis to understand which logical relations are more relevant to commonsense reasoning.
研究动机与目标
- 显式提升预训练语言模型的常识推理能力,尽管其在自然语言理解任务中已取得成功,但当前其常识推理能力仍显不足。
- 通过利用ConceptNet的结构化知识,解决在非结构化文本中缺乏常识推理直接监督的问题。
- 开发一种可扩展的自动化方法,用于生成多样且自然语言表达的多项选择题,这些问题需要逻辑性的常识推理。
- 评估在这些合成题目上微调预训练模型是否能提升其在下游常识推理基准上的表现。
- 识别知识库中哪些逻辑关系最符合人类的常识推理。
提出的方法
- 从ConceptNet中采样子图,形式为(A →R₁ B →R₂ C),以生成逻辑推理模式。
- 构建两组集合:R₁ = {X : A →R₁ X} 和 R₂ = {X : X →R₂ C},以围绕实体B定义推理任务。
- 使用文本模板将逻辑形式转换为包含一个正确答案和三个干扰项的自然语言多项选择题。
- 采用候选答案采样策略,如随机采样和最近邻采样,以生成多样化的干扰项。
- 在生成的合成数据集上微调预训练模型(如BERT、XLNet),以优化其常识推理能力。
- 系统性地评估不同逻辑形式和关系类型对模型性能的影响。
实验结果
研究问题
- RQ1ConceptNet中的结构化知识能否有效用于生成合成训练数据,以提升预训练模型的常识推理能力?
- RQ2当预训练模型在知识库生成的多项选择题上进行微调时,其性能在低数据(少样本)场景下如何变化?
- RQ3ConceptNet中哪些类型的逻辑关系最相关于常识推理,且是否对模型性能提升有更大贡献?
- RQ4微调带来的性能增益是否在不同模型架构和数据集上均具有鲁棒性?
- RQ5该方法对不同候选答案采样策略的敏感性如何?
主要发现
- 在生成的合成数据集上微调BERT,在CommonsenseQA的少样本学习中实现了18%的绝对准确率提升,仅使用全量训练数据的16.4%时,准确率达到53.43%。
- 在完整微调数据上,该方法实现了2%的准确率增益,表明在不同数据规模下均具有一致的性能提升。
- 仅在三种简单逻辑形式(#1、#2、#5)——如单重关系和逻辑与推理——上微调的模型已接近全性能,表明这些形式与常识推理高度相关。
- 涉及复杂组合或否定关系的逻辑形式(#4、#7、#9)对性能提升贡献甚微,表明其与人类直觉性常识推理的契合度较低。
- 该方法对不同候选答案采样策略具有鲁棒性,随机采样与最近邻采样之间的性能差异极小。
- 性能增益可迁移至更大模型,如消融研究中在RoBERTa和XLNet上也观察到类似提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。