[论文解读] BigGreen at SemEval-2021 Task 1: Lexical Complexity Prediction with Assembly Models
本论文介绍了 BigGreen 参与 SemEval-2021 任务 1 的提交方案,提出一种集成模型,将手工设计的语言学特征与基于 BERT 的深度学习方法相结合,用于词汇复杂度预测。该系统采用特征工程方法,涵盖词汇、语义、句法和语音学度量,结合 XGBoost 与 MT-DNN,表现出色,尤其在极端复杂度案例中表现突出,通过利用单字模型预测,显著提升了多词表达的预测效果。
This paper describes a system submitted by team BigGreen to LCP 2021 for predicting the lexical complexity of English words in a given context. We assemble a feature engineering-based model with a deep neural network model founded on BERT. While BERT itself performs competitively, our feature engineering-based model helps in extreme cases, eg. separating instances of easy and neutral difficulty. Our handcrafted features comprise a breadth of lexical, semantic, syntactic, and novel phonological measures. Visualizations of BERT attention maps offer insight into potential features that Transformers models may learn when fine-tuned for lexical complexity prediction. Our ensembled predictions score reasonably well for the single word subtask, and we demonstrate how they can be harnessed to perform well on the multi word expression subtask too.
研究动机与目标
- 通过结合精心筛选的语言学特征与深度神经网络,提升词汇复杂度预测性能。
- 通过在连续尺度上建模复杂度,克服二分类方法的局限性。
- 通过特征工程,提升在极端复杂度案例(如极简单或极难词汇)中的预测表现。
- 通过分析成分词的预测结果,将单字模型适配至多词表达预测。
- 分析 BERT 注意力机制,理解模型在复杂度预测中学习到的语言学模式。
提出的方法
- 系统采用混合方法:基于 110 个手工设计特征的回归器,包括词频、语义嵌入(GloVe、ELMo)以及新颖的语音学度量。
- 对 BERT 基础的 MT-DNN 模型进行微调,用于序列级复杂度回归,并提取注意力图以分析注意力模式。
- 使用 XGBoost 训练基于特征的回归器,通过网格搜索调整超参数。
- 通过组合 XGBoost 与 MT-DNN 的预测结果生成集成预测,提升鲁棒性与性能。
- 对于多词表达,通过独立应用单字模型于核心词与尾词,再与 MT-DNN 输出集成,提升预测效果。
- 计算词频与平均注意力之间的注意力头相关性,以识别 BERT 中专门处理罕见或常见词的注意力模式。
实验结果
研究问题
- RQ1手工设计的语言学特征在超越预训练嵌入的基础上,如何提升词汇复杂度预测性能?
- RQ2BERT 注意力头在多大程度上专门关注罕见或常见词?这种关注模式如何与复杂度预测相关联?
- RQ3通过分析成分词,能否有效将单字模型的预测结果迁移至多词表达?
- RQ4基于特征的模型与深度神经网络之间的集成学习,在连续复杂度回归任务中如何提升性能?
- RQ5词频在人类感知与模型注意力中分别扮演何种角色?其在注意力模式中如何体现?
主要发现
- XGBoost 与 MT-DNN 的集成在单字子任务上达到 0.744 的皮尔逊相关系数,位列所有提交结果的前 15%。
- 在 XGBoost 模型中,基于词频的特征被识别为最重要特征,表明其在复杂度估计中起主导作用。
- 多个 BERT 注意力头显示出词频与注意力分布之间的显著相关性,表明其在处理罕见或常见词方面具有专门化特性。
- 通过利用单字模型对成分词的预测结果,系统在多词表达子任务上的表现优于原始提交版本。
- 注意力图的可视化揭示了结构化模式,如垂直条纹,表明注意力根据词频在一系列标记上分布。
- 本研究证实,词频在人类标注者与学习模型中均为词汇复杂度预测的根本信号。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。