QUICK REVIEW

[论文解读] Machine Translation Evaluation with BERT Regressor

Hiroki Shimanaka, Tomoyuki Kajiwara|arXiv (Cornell University)|Jul 29, 2019

Natural Language Processing Techniques参考文献 12被引用 23

一句话总结

本文提出了一种基于 BERT 的回归模型用于自动机器翻译评估，利用 BERT 的句子对编码和微调的上下文嵌入来预测人工评估得分。该方法在 WMT-2017 的分段级指标任务中，对所有英译语言对均取得了最先进性能，优于先前方法如 RUSE，其优势源于 BERT 的预训练、联合句子对编码以及端到端微调机制。

ABSTRACT

We introduce the metric using BERT (Bidirectional Encoder Representations from Transformers) (Devlin et al., 2019) for automatic machine translation evaluation. The experimental results of the WMT-2017 Metrics Shared Task dataset show that our metric achieves state-of-the-art performance in segment-level metrics task for all to-English language pairs.

研究动机与目标

开发一种新的自动机器翻译评估指标，其与人工判断的相关性高于现有方法。
探究 BERT 的预训练上下文表示是否能提升分段级翻译质量评估性能。
分析 BERT 特有的组件——预训练方法、句子对编码和微调——对 MTE 性能的贡献。
在 WMT-2017 数据集上，将所提出的基于 BERT 的指标与 RUSE（一种先前最先进基于句子嵌入的指标）进行比较。

提出的方法

在回归头上微调预训练的 BERT 模型，该回归头用于从配对的机器翻译假设句和参考译文预测人工评估得分。
使用 BERT 句子对编码器最后一层隐藏状态中 [CLS] token 的嵌入作为多层感知机（MLP）回归器的输入。
采用联合句子对编码方式，将假设句和参考译文作为单一输入序列输入 BERT，从而实现对句子间关系的交叉注意力建模。
对 BERT 编码器与 MLP 回归器进行端到端微调，使上下文表示能够适应 MTE 任务。
在开发数据上通过网格搜索优化超参数，包括批量大小、dropout 率、初始学习率和 MLP 架构。
比较消融变体：未微调的 BERT、使用不同预训练方法的 BERT，以及使用替代句子编码器（GloVe-BoW、QuickThought）的 RUSE。

实验结果

研究问题

RQ1与独立句子编码相比，基于 BERT 的句子对编码是否能提升自动机器翻译评估性能？
RQ2与替代预训练方法相比，BERT 使用掩码语言建模和下一句预测进行预训练，是否能显著提升 MTE 性能？
RQ3与使用冻结嵌入相比，微调预训练的 BERT 编码器在多大程度上提升了 MTE 性能？
RQ4预训练方法、句子对编码和微调这三个关键组件，各自对超越 RUSE 的整体性能提升贡献如何？

主要发现

所提出的基于 BERT 的指标在 WMT-2017 分段级指标任务中，对所有英译语言对均取得了最先进性能，优于 RUSE 和其他基线方法。
BERT 同时使用掩码语言建模和下一句预测进行预训练，其性能显著优于仅使用 NSP 的 QuickThought 或 GloVe-BoW，证明了双向上下文学习的重要性。
BERT 中的联合句子对编码相比 RUSE 通过分别编码句子并拼接嵌入的方法，与人工判断的相关性更高，表明其对句间关系建模更优。
微调预训练的 BERT 编码器相比使用冻结的 BERT 嵌入，带来了显著的性能提升，证实了任务特定微调的优势。
消融实验表明，三个关键组件——预训练方法、句子对编码和微调——各自独立且显著地贡献于整体性能提升。
该指标在所有英译语言对上与人工评估得分的皮尔逊相关系数均高于 RUSE，验证了 BERT 在 MTE 中的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。