QUICK REVIEW

[论文解读] Bandit Structured Prediction for Learning from Partial Feedback in Statistical Machine Translation

Artem Sokolov, Stefan Riezler|arXiv (Cornell University)|Jan 1, 2016

Advanced Bandit Algorithms Research参考文献 44被引用 11

一句话总结

本文提出Bandit Structured Prediction，一种仅使用部分反馈（即单一预测翻译的损失值，而非完整参考标注）的结构化预测方法。该方法应用于统计机器翻译中的判别性重排序，实现了与使用完整参考反馈方法相当的翻译质量提升，模拟了用户仅提供单点损失反馈的交互式个性化场景。

ABSTRACT

We present an approach to structured prediction from bandit feedback, called Bandit Structured Prediction, where only the value of a task loss function at a single predicted point, instead of a correct structure, is observed in learning. We present an application to discriminative reranking in Statistical Machine Translation (SMT) where the learning algorithm only has access to a 1 − BLEU loss evaluation of a predicted translation instead of obtaining a gold standard reference translation. In our experiment bandit feedback is obtained by evaluating BLEU on reference translations without revealing them to the algorithm. This can be thought of as a simulation of interactive machine translation where an SMT system is personalized by a user who provides single point feedback to predicted translations. Our experiments show that our approach improves translation quality and is comparable to approaches that employ more informative feedback in learning.

研究动机与目标

解决在仅获得部分反馈（例如，单一预测的损失）而无法获得完整参考标注的情况下进行结构化预测学习的挑战。
在每次预测中仅使用 1 − BLEU 损失反馈，无需访问黄金参考翻译，实现统计机器翻译中的判别性重排序。
模拟用户仅对翻译结果提供单点反馈的交互式机器翻译系统，通过最小用户输入实现个性化改进。
评估此类有限反馈是否能够实现与使用完整参考反馈方法相当的翻译质量。

提出的方法

该方法采用上下文臂反馈设置，仅观察到预测翻译处的任务损失（1 − BLEU）值，而非完整的参考结构。
采用适配于处理部分反馈的结构化预测框架，学习一种基于损失信号选择高质量翻译的策略。
该算法仅利用在所选动作处观测到的损失值，估计期望损失的梯度，从而在无完整监督的情况下实现策略更新。
将该框架应用于统计机器翻译中的重排序任务，其中多个候选翻译根据模拟用户的反馈进行排序。
该方法使用随机梯度下降优化策略，基于观测到的 1 − BLEU 损失更新参数。
在模拟环境中评估该方法，其中参考翻译被隐藏，仅向学习算法公开 BLEU 分数。

实验结果

研究问题

RQ1是否可以在仅获得每个预测的单一损失反馈信号、且无法访问完整参考结构的情况下，有效学习结构化预测？
RQ2与使用完整参考反馈的方法相比，基于上下文臂反馈的方法在统计机器翻译的判别性重排序中表现如何？
RQ3系统能否通过类似用户的单点反馈实现翻译质量的提升，从而模拟交互式个性化？
RQ4Bandit Structured Prediction 框架在 SMT 重排序中是否能够实现与标准监督方法相当的翻译质量？

主要发现

所提出的 Bandit Structured Prediction 方法尽管仅接收部分反馈（即 1 − BLEU 损失值），仍能有效提升 SMT 重排序中的翻译质量。
该方法实现了与使用完整参考翻译的方法相当的翻译质量，证明了在结构化预测中使用部分反馈的有效性。
系统成功模拟了交互式机器翻译场景，用户仅对翻译结果提供单点反馈，实现了以最小用户输入实现个性化。
实验结果表明，从上下文臂反馈中学习在机器翻译的结构化预测任务中是可行且有效的。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。