[论文解读] Learning and Evaluating General Linguistic Intelligence
本文定义了用于语言任务的一般语言智能,提出一种在线前序编码指标用于衡量快速适应,并在多项NLP任务上对最先进模型的迁移、泛化与遗忘进行了实证审计。研究发现当前模型仍然需要大量领域内数据,容易发生灾难性遗忘,并且过拟合于特定数据集,而不是解决一般语言任务。
We define general linguistic intelligence as the ability to reuse previously acquired knowledge about a language's lexicon, syntax, semantics, and pragmatic conventions to adapt to new tasks quickly. Using this definition, we analyze state-of-the-art natural language understanding models and conduct an extensive empirical investigation to evaluate them against these criteria through a series of experiments that assess the task-independence of the knowledge being acquired by the learning process. In addition to task performance, we propose a new evaluation metric based on an online encoding of the test data that quantifies how quickly an existing agent (model) learns a new task. Our results show that while the field has made impressive progress in terms of model architectures that generalize to many tasks, these models still require a lot of in-domain training examples (e.g., for fine tuning, training task-specific modules), and are prone to catastrophic forgetting. Moreover, we find that far from solving general tasks (e.g., document question answering), our models are overfitting to the quirks of particular datasets (e.g., SQuAD). We discuss missing components and conjecture on how to make progress toward general linguistic intelligence.
研究动机与目标
- 定义一般语言智能,即重复使用先前语言知识以快速适应新任务的能力。
- 评估最先进的NLP模型在任务独立性和知识重用方面的表现。
- 提出并验证一个在线前序编码度量来量化在新任务上的快速学习。
- 分析在连续学习设置中的迁移学习、跨数据集的泛化和灾难性遗忘。
提出的方法
- 使用两大模型体系:基于Transformer的(BERT)和基于循环神经的(ELMo+BiDAF)架构。
- 在无监督目标和/或其他监督任务上对模型进行预训练,然后在如SQuAD和MNLI的目标任务上进行微调。
- 引入基于前序编码的在线码长,用以衡量模型学习新任务所需的训练示例数量。
- 通过在SQuAD训练的模型上测试TriviaQA、QuAC、QA-SRL和QA-ZRE数据集来评估泛化性。
- 通过在任务序列上进行持续学习(无监督→SQuAD→MNLI/TriviaQA)进行研究,考察遗忘与课程效应。
- 讨论通过记忆模块、元学习和改进课程等潜在改进。
实验结果
研究问题
- RQ1现有模型在给定先前训练的情况下多快能够适应新的语言任务?
- RQ2在同一任务内,预训练模型在不进行额外微调的情况下在数据集间的泛化程度有多大?
- RQ3在相关任务上的预训练如何影响样本效率和目标任务的最终性能?
- RQ4在持续学习中,训练课程对对先前学习任务的遗忘有何影响?
- RQ5记忆或元学习方法是否能够提高对领域偏移和灾难性遗忘的鲁棒性?
主要发现
- 预训练显著降低达到高性能所需的领域内数据量,但在接近SQuAD和MNLI的渐近性能时仍需约4万例样本。
- 在其他监督任务上进行预训练的模型往往获得更好的在线码长,表明在最终精度相近的情况下具有更快的实际学习速度。
- 高性能的SQuAD模型在没有来自这些数据集的额外训练数据时,泛化到TriviaQA、QuAC、QA-SRL或QA-ZRE的效果不理想。
- 持续学习会快速遗忘早期任务,即使存在任务特异性的最终层,凸显需要更好的迁移和记忆机制。
- 随机多任务课程可以缓解遗忘并在各任务上获得有竞争力的表现,但可能需要从一开始就看到所有任务或重新训练。
- 论文讨论包括弹性权重凝聚、记忆模块和元学习等作为走向通用语言智能的潜在改进方向。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。