QUICK REVIEW

[论文解读] Thinking Slow about Latency Evaluation for Simultaneous Machine Translation

Colin Cherry, George Foster|arXiv (Cornell University)|May 31, 2019

Natural Language Processing Techniques被引用 33

一句话总结

本文提出 Differentiable Average Lagging (DAL)，一种用于同时翻译的可微分延迟度量，解决了 Average Lagging (AL) 的不一致性，并提供一个在固有时序情景下评估延迟的连贯框架。

ABSTRACT

Simultaneous machine translation attempts to translate a source sentence before it is finished being spoken, with applications to translation of spoken language for live streaming and conversation. Since simultaneous systems trade quality to reduce latency, having an effective and interpretable latency metric is crucial. We introduce a variant of the recently proposed Average Lagging (AL) metric, which we call Differentiable Average Lagging (DAL). It distinguishes itself by being differentiable and internally consistent to its underlying mathematical model.

研究动机与目标

澄清固有（无时序信息）同时MT评估中的延迟测量。
指出现有 AL 指标的局限性。
提出一个可微分的延迟度量，考虑目标写作成本并保持 AL 的优点。
提供一个非递归形式的延迟模型以便实际实现。

提出的方法

将 g(t) 定义为在写出目标标记 t 之前读取的源标记数量。
引入在写入目标标记时引入时间成本 d 的 g'，通过递推 g_d'(t)= { g(t) 当 t=1; max[g(t), g_d'(t-1)+d] }，并证明其等价于非递归形式。
推导 DAL_d 为 1/|y| sum_t ( g_d'(t) - (t-1)d )，并提出 d = |x|/|y| 以与 AL 保持一致。
通过使用可微分的基于时间的形式消除 AL 中的问题 tau。
给出非递归等价式 g_d'(t) = (t-1)d + max_{1≤i≤t} [ g(i) - (i-1)d ]。
讨论性质、边界情况，以及对确定性与自适应延迟策略的影响。

实验结果

研究问题

RQ1在没有源时序信息的情况下，如何测量固有的同时 MT 评估中的延迟？
RQ2AL 在可微分性方面的局限性，以及在惩罚/奖励某些时序策略方面的局限？
RQ3是否可以设计一个可微分的延迟度量，兼顾写入目标标记的成本，并对 wait-k 系统保持一致性？
RQ4在不同长度条件下，DAL 相较于 AL 在确定性与自适应翻译系统中的表现如何？

主要发现

DAL 可微分，消除了 AL 的基于 tau 的不可微分性。
DAL 引入写作成本参数 d，选择为 d = |x|/|y|，以与 AL 保持一致并在 y 比 x 长时鼓励追赶。
DAL 保留 wait-k 系统对 AL 的解释，同时避免 AL 在 tau 之后的免费写入潜在利用。
DAL 的时间索引延迟下界为 (t-1)d，确保基线延迟并避免负延迟。
实证比较表明 AL 与 DAL 之间存在主要线性关系，DAL 更保守，在自适应 MILk 与确定性 wait-k 系统相比，报告的延迟略高。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。