QUICK REVIEW

[论文解读] Interactive-Predictive Neural Machine Translation through Reinforcement and Imitation

Tsz Kin Lam, Shigehiko Schamoni|arXiv (Cornell University)|Jul 4, 2019

Natural Language Processing Techniques参考文献 35被引用 7

一句话总结

本文提出了一种交互式-预测性神经机器翻译框架，通过强化学习与模仿学习实现高效模型个性化。通过在翻译过程中收集弱反馈（保留/删除编辑）和专家示范（替换编辑），系统利用约束束搜索生成改进的翻译结果，在两个语料对上实现了接近监督学习的性能，同时显著减少了人工投入。

ABSTRACT

We propose an interactive-predictive neural machine translation framework for easier model personalization using reinforcement and imitation learning. During the interactive translation process, the user is asked for feedback on uncertain locations identified by the system. Responses are weak feedback in the form of keep and delete edits, and expert demonstrations in the form of substitute edits. Conditioning on the collected feedback, the system creates alternative translations via constrained beam search. In simulation experiments on two language pairs our systems get close to the performance of supervised training with much less human effort.

研究动机与目标

减少个性化神经机器翻译模型所需的人工投入。
通过用户对不确定片段的反馈实现实时用户交互。
将弱反馈（保留/删除）和专家示范（替换编辑）整合到模型适应过程中。
通过基于收集的用户反馈的约束束搜索提升翻译质量。
证明交互式学习可在显著减少标注投入的前提下实现接近监督训练的性能。

提出的方法

系统识别不确定的翻译片段，并向用户征求反馈。
反馈以保留/删除编辑（弱反馈）和替换编辑（专家示范）的形式收集。
模型基于用户反馈，利用约束束搜索生成替代翻译。
使用强化学习基于反馈信号优化策略。
模仿学习将专家替换编辑纳入，引导模型采用更优的翻译策略。
该框架在两个语料对上通过模拟进行训练与评估，以衡量效率与性能。

实验结果

研究问题

RQ1弱反馈与专家示范是否能在最小人工输入下提升神经机器翻译质量？
RQ2与监督微调相比，交互式反馈的整合对翻译性能有何影响？
RQ3基于用户反馈的约束束搜索在多大程度上能生成高质量的替代翻译？
RQ4系统是否能通过显著减少人工标注投入实现接近监督学习的性能？
RQ5强化学习与模仿学习的结合在个性化翻译模型方面有多高效？

主要发现

交互式-预测性框架实现了接近监督训练的翻译性能。
通过利用弱反馈与专家示范，显著降低了人工标注投入。
以保留/删除和替换编辑形式呈现的用户反馈，有效引导模型生成更优翻译。
基于反馈的约束束搜索能生成高质量的替代翻译。
系统在极少用户交互下展现出强大的个性化潜力。
在两个语料对上的模拟结果证实了交互式-预测性方法的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。