QUICK REVIEW

[论文解读] Multitask Learning For Different Subword Segmentations In Neural Machine Translation

Tejas Srinivasan, Ramon Sanabria|arXiv (Cornell University)|Nov 2, 2019

Natural Language Processing Techniques参考文献 28被引用 2

一句话总结

本文提出块多任务学习（BMTL），一种神经机器翻译架构，可联合预测多种子词粒度（如词、子词和字符级别）的翻译结果，而无需手动选择最优分词。通过训练单一模型在不同粒度上生成假设，BMTL在参数量与单任务基线模型相同的情况下，翻译性能最高提升1.7 BLEU分，且通过后处理组合多粒度输出可进一步提升翻译质量。

ABSTRACT

In Neural Machine Translation (NMT) the usage of sub􏰃words and characters as source and target units offers a simple and flexible solution for translation of rare and unseen words. However, selecting the optimal subword segmentation involves a trade-off between expressiveness and flexibility, and is language and dataset-dependent. We present Block Multitask Learning (BMTL), a novel NMT architecture that predicts multiple targets of different granularities simultaneously, removing the need to search for the optimal segmentation strategy. Our multi-task model exhibits improvements of up to 1.7 BLEU points on each decoder over single-task baseline models with the same number of parameters on datasets from two language pairs of IWSLT15 and one from IWSLT19. The multiple hypotheses generated at different granularities can be combined as a post-processing step to give better translations, which improves over hypothesis combination from baseline models while using substantially fewer parameters.

研究动机与目标

通过同时学习多种粒度，消除子词分词中手动调整超参数的需求。
解决不同语言和数据集下子词分词策略在表达能力与灵活性之间的权衡问题。
通过后处理组合多粒度输出的假设，提升翻译质量。
通过在多个预测头之间共享参数，保持模型效率，同时在性能上超越单任务模型。

提出的方法

设计一种多任务神经机器翻译框架，在单一编码器-解码器架构中联合预测多种子词粒度（如词级、子词级和字符级）的输出。
使用共享编码器和多个并行的解码头，每个解码头专门用于生成特定粒度的翻译结果。
使用联合损失函数联合训练所有解码头，该损失函数结合了各粒度层级的交叉熵损失。
应用一种后处理策略，将不同粒度生成的多个假设进行组合，以生成最终翻译结果。
通过在所有粒度头之间共享编码器和大部分解码组件，确保参数效率。
端到端优化模型，以在不为每种分词策略单独训练的情况下，平衡所有粒度的性能表现。

实验结果

研究问题

RQ1单一神经机器翻译模型能否在不损害性能或参数效率的前提下，联合预测多种子词粒度的翻译结果？
RQ2同时学习多种粒度是否能带来优于为单一分词策略优化的翻译质量？
RQ3多粒度假设的后处理组合能否在使用更少参数的情况下，超越标准集成方法？
RQ4与参数数量相同的单任务模型相比，所提出的BMTL模型在BLEU分数和跨语言对的鲁棒性方面表现如何？

主要发现

在IWSLT15和IWSLT19数据集上，BMTL在参数量与单任务基线模型相同的情况下，BLEU分数最高提升1.7分。
该模型在所有粒度上均保持优异性能，无需为每种分词层级单独训练或调整超参数。
来自不同粒度的假设经后处理组合后，其翻译质量优于单任务模型生成的类似组合。
该方法减少了对子词分词策略的广泛搜索需求，而这些策略通常具有语言和数据集依赖性。
多粒度预测在单一模型内高效生成，展现出良好的参数效率和可扩展性。
该方法在IWSLT15的两组语言对和IWSLT19的一组语言对上均表现出一致的性能提升，表明其具有广泛适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。