[论文解读] Improving Sequence Tagging for Vietnamese Text Using Transformer-based Neural Models
本文提出 viBERT 和 vELECTRA,即基于多语言 BERT 和 ELECTRA 架构并使用注意力 RNN 进行微调的越南语序列标注模型。通过在大规模越南语语料上改进预训练和微调策略,该方法在基准测试中取得了最先进性能——在 VLSP 2010 的 POS 标注任务中准确率达到 95.40%,在 VLSP 2013 中达到 96.77%,在 VLSP 2016 的命名实体识别任务中 F1 得分为 94.07%,在 VLSP 2018 中达到 90.31% 的 F1 得分。代码与模型已开源。
This paper describes our study on using mutilingual BERT embeddings and some new neural models for improving sequence tagging tasks for the Vietnamese language. We propose new model architectures and evaluate them extensively on two named entity recognition datasets of VLSP 2016 and VLSP 2018, and on two part-of-speech tagging datasets of VLSP 2010 and VLSP 2013. Our proposed models outperform existing methods and achieve new state-of-the-art results. In particular, we have pushed the accuracy of part-of-speech tagging to 95.40% on the VLSP 2010 corpus, to 96.77% on the VLSP 2013 corpus; and the F1 score of named entity recognition to 94.07% on the VLSP 2016 corpus, to 90.31% on the VLSP 2018 corpus. Our code and pre-trained models viBERT and vELECTRA are released as open source to facilitate adoption and further research.
研究动机与目标
- 通过使用多语言 BERT 和 ELECTRA 架构,提升越南语序列标注性能。
- 在大规模单语越南语语料上开发并预训练专用的越南语语言模型(viBERT 和 vELECTRA)。
- 通过用注意力 RNN 替代线性层来改进微调策略,以实现更好的序列建模。
- 在标准越南语 POS 标注和命名实体识别基准数据集上实现最先进性能。
- 发布开源代码与预训练模型,以支持越南语自然语言处理领域的进一步研究。
提出的方法
- 使用多语言 BERT 和 ELECTRA 架构,在 10GB 和 60GB 的未压缩越南语文本上预训练 viBERT 和 vELECTRA。
- 在 BERT 风格的预训练中使用完整词遮蔽,在 ELECTRA 风格的预训练中使用被替换词检测,以提升表征学习效果。
- 使用带有自注意力机制的 biLSTM 或 biGRU 替代简单线性层,对预训练模型进行微调,以实现序列标注。
- 使用可学习的位置嵌入,序列长度最长可达 256 个 token,并采用 WordPiece 分词方法,使用 ## 子词单元。
- 使用 Adam 优化器,β1 = 0.9,β2 = 0.999,ϵ = 1e−6,权重衰减为 0.01。
- 在 VLSP 2010、2013(POS 标注)和 VLSP 2016、2018(命名实体识别)数据集上进行评估,使用准确率和 F1 得分作为指标。
实验结果
研究问题
- RQ1使用注意力 RNN 对 BERT 和 ELECTRA 进行微调,是否能显著提升越南语序列标注性能?
- RQ2与多语言 mBERT 相比,在大规模单语越南语语料上进行预训练,对下游序列标注任务有何影响?
- RQ3在越南语自然语言处理任务中,ELECTRA 的被替换词检测目标是否优于 BERT 的遮蔽语言建模目标?
- RQ4当与预训练模型结合时,不同序列标注架构(如 biLSTM、biGRU、注意力机制)对模型性能有何影响?
- RQ5所提出的模型是否能在标准越南语基准数据集上实现 POS 标注和命名实体识别的最先进性能?
主要发现
- 所提出的 vELECTRA 模型在 VLSP 2010 POS 标注数据集上达到 95.40% 的准确率,较之前最先进方法高出超过 2 个百分点。
- 在 VLSP 2013 POS 标注数据集上,模型准确率达到 96.77%,创下新的最先进结果。
- 在 VLSP 2016 命名实体识别数据集上,表现最佳的模型达到 94.07% 的 F1 得分,显著优于先前方法。
- 在 VLSP 2018 命名实体识别数据集上,模型达到 90.31% 的 F1 得分,较 mBERT 和 viBERT 提升了 3%。
- 在 VLSP 2018 命名实体识别数据集上,biGRU 搭载注意力机制的架构表现最佳;而在 VLSP 2016 上,biLSTM 搭载注意力机制的架构表现最佳。
- 解码时间实际可行,vELECTRA 是速度最快的模型,且该系统已在 FPT.AI 生产环境中部署,服务于超过 3000 万名用户。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。