[论文解读] Learning to Segment Inputs for NMT Favors Character-Level Processing
本文提出了一种端到端可训练的动态分割机制,用于神经机器翻译(NMT),以替代固定的子词或字符级分词,采用基于Graves(2016)提出的自适应计算时间(Adaptive Computation Time)的自适应、可学习的分词过程。该模型通过一个停止单元(halting unit)学习将输入字符分组成可变长度的片段,实验表明其始终偏好(几乎)字符级分词,支持纯字符级NMT模型相较于子词或词级替代方案的可行性。
Most modern neural machine translation (NMT) systems rely on presegmented inputs. Segmentation granularity importantly determines the input and output sequence lengths, hence the modeling depth, and source and target vocabularies, which in turn determine model size, computational costs of softmax normalization, and handling of out-of-vocabulary words. However, the current practice is to use static, heuristic-based segmentations that are fixed before NMT training. This begs the question whether the chosen segmentation is optimal for the translation task. To overcome suboptimal segmentation choices, we present an algorithm for dynamic segmentation based on the Adaptative Computation Time algorithm (Graves 2016), that is trainable end-to-end and driven by the NMT objective. In an evaluation on four translation tasks we found that, given the freedom to navigate between different segmentation levels, the model prefers to operate on (almost) character level, providing support for purely character-level NMT models from a novel angle.
研究动机与目标
- 探究神经机器翻译模型是否能够动态学习最优输入分段,而非依赖BPE或WordPiece等固定的启发式预分段。
- 克服基于流水线的预处理方法的局限性,如刚性分段、词汇表不匹配以及在生产系统中的集成开销。
- 评估当分段过程自适应学习时,尽管序列更长,纯字符级NMT是否仍能优于子词或词级模型。
- 提供实证和定性证据,证明纯字符级模型具有可行性且高效,尤其因其具备更强的鲁棒性并显著减少预处理负担。
提出的方法
- 该方法用一个‘智能嵌入’层替代标准的嵌入层,该层按顺序处理输入字符,并利用标量停止单元动态决定何时输出一个分段嵌入。
- 停止单元计算一个门控信号,以确定字符块何时准备好被输入编码器,从而实现可变长度分段的生成。
- 中间隐藏状态根据停止概率加权,使整个机制完全可微分,并支持端到端训练。
- 模型采用双向GRU编码器和基于注意力的解码器,唯一的变化是输入嵌入层,因此兼容RNN、CNN和Transformer架构。
- 分段过程是可微分的,并与NMT目标联合训练,使模型能够学习提升翻译质量的分段模式。
- 该方法在四个多样化的翻译任务(IWSLT、CASIA、ASPEC、WMT)上进行评估,比较了学习分段与固定BPE和字符级基线方法的性能。
实验结果
研究问题
- RQ1经过端到端动态分段训练的NMT模型是否偏好子词级、词级或字符级分段?
- RQ2模型是否能够以一种自适应方式学习分段,从而在翻译质量上优于BPE或WordPiece等固定分段方法?
- RQ3在BLEU分数和鲁棒性方面,具有学习分段的纯字符级模型在多大程度上优于基于子词的模型?
- RQ4在字符级模型中,循环门和注意力机制隐式学习了哪些分段模式?与显式分段相比有何差异?
- RQ5动态学习分段的能力是否足以证明采用纯字符级NMT优于子词或词级方法?
主要发现
- 该模型在所有数据集上始终学习在(几乎)字符级别进行分段,超过90%的分段长度为1至3个字符。
- 尽管输入序列更长,但采用动态分段的字符级模型在BLEU分数上与子词模型相当或更优,即使在模型架构完全相同的情况下也是如此。
- GRU门控激活显示,空白字符和词边界会触发不同的门控模式,表明模型通过循环动力学隐式学习了分段。
- 该模型展现出分解复合词的能力,能正确将复杂词如'schreibtisch'拆分为'schreib'和'tisch',表明其具备稳健的形态学理解能力。
- 动态分段机制成功重新发现了纯字符级模型中已存在的分段能力,表明性能提升并不需要显式学习分段。
- 结果支持将纯字符级NMT作为子词系统的一种可行、稳健且高效的替代方案,尤其因其显著减少了预处理开销,并能更好地处理OOV和拼写错误。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。