[论文解读] Automated essay scoring using efficient transformer-based language models
本文提出使用高效、参数更少的基于Transformer的自然语言模型——如Mobile-BERT、Electra和Reformer——进行自动作文评分(AES),并证明通过集成这些模型,可在ASAP AES数据集上实现最先进性能,且参数量和计算成本远低于BERT等大型模型。该方法挑战了NLP领域‘模型越大越好’的范式,表明经过适当微调和集成后,更小、更高效的模型可超越大型模型。
Automated Essay Scoring (AES) is a cross-disciplinary effort involving Education, Linguistics, and Natural Language Processing (NLP). The efficacy of an NLP model in AES tests it ability to evaluate long-term dependencies and extrapolate meaning even when text is poorly written. Large pretrained transformer-based language models have dominated the current state-of-the-art in many NLP tasks, however, the computational requirements of these models make them expensive to deploy in practice. The goal of this paper is to challenge the paradigm in NLP that bigger is better when it comes to AES. To do this, we evaluate the performance of several fine-tuned pretrained NLP models with a modest number of parameters on an AES dataset. By ensembling our models, we achieve excellent results with fewer parameters than most pretrained transformer-based models.
研究动机与目标
- 挑战NLP领域普遍存在的假设,即更大的模型在自动作文评分(AES)中始终更优。
- 评估较小、高效的Transformer模型(如Mobile-BERT、Electra和Reformer)在ASAP AES数据集上的性能。
- 证明通过轻量化架构的模型集成,可实现优于BERT等大型模型的性能。
- 降低AES系统中的计算和内存开销,使其能够在资源受限设备上部署。
- 通过最小化微调模型的碳足迹,推动环境可持续的NLP发展。
提出的方法
- 在ASAP AES数据集上微调多个高效Transformer模型(包括Mobile-BERT、Electra和一个自定义的6层Reformer),采用5折交叉验证划分。
- 采用均方误差(MSE)损失进行回归式评分,将离散分数映射到[0,1]区间内等间隔区间的中点。
- 对学习率和批量大小进行网格搜索,以优化每个模型的超参数。
- 使用大型作文语料在RTX 8000上训练了一个自定义Reformer模型,其隐藏层大小为512,注意力头数为4,哈希函数数为4,子词词元数为16,000。
- 通过平均表现最佳模型(如Mobile-BERT和Electra)的输出并四舍五入得到最终评分,实现模型集成。
- 采用标准评估指标:加权 quadratic kappa(QWK)、标准化均值差(SMD)和准确率(Acc)。
实验结果
研究问题
- RQ1更小、更高效的Transformer模型是否能在自动作文评分中实现与BERT等大型模型相当或更优的性能?
- RQ2集成多个轻量化模型是否能提升性能,超越单个模型甚至BERT的性能?
- RQ3像Reformer和Mobile-BERT这样的高效架构是否能比标准Transformer更好地处理长篇作文,展现出更优的长度可扩展性?
- RQ4架构效率在多大程度上可降低计算成本和碳足迹,同时不牺牲评分准确性?
- RQ5手工设计的特征或额外正则化是否能在不增加模型大小的前提下进一步提升轻量化模型的性能?
主要发现
- Mobile-BERT与Electra的集成模型在QWK指标上优于单独使用BERT,尽管参数量仅为后者的约三分之一。
- Electra和Mobile-BERT在ASAP数据集上单独表现优于BERT,表明架构效率可提升性能。
- 自定义Reformer模型成功处理了长达1024个标记的序列,解决了标准Transformer在作文评分中处理长文本的关键局限。
- 表现最佳的模型在QWK得分上超过了BERT及其扩展模型的报告结果,为轻量化模型设立了新基准。
- 模型集成显著提升了性能,表明高效架构之间存在互补优势。
- 本研究证明,更小的模型在AES任务中可达到甚至超越大型模型的性能,且计算和环境成本大幅降低。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。