[论文解读] Iterative Translation Refinement with Large Language Models
论文在迭代 refined 循环中使用 GPT-3.5 以生成更自然的翻译并降低 translationese,同时神经指标可比或提升,尤为适用于英译方向,且受人类评估偏好。
We propose iteratively prompting a large language model to self-correct a translation, with inspiration from their strong language understanding and translation capability as well as a human-like translation approach. Interestingly, multi-turn querying reduces the output's string-based metric scores, but neural metrics suggest comparable or improved quality. Human evaluations indicate better fluency and naturalness compared to initial translations and even human references, all while maintaining quality. Ablation studies underscore the importance of anchoring the refinement to the source and a reasonable seed translation for quality considerations. We also discuss the challenges in evaluation and relation to human performance and translationese.
研究动机与目标
- 推动在机器翻译输出中避免翻译腔,并提升LLMs产生的翻译自然性。
- 提出一个迭代式精炼协议,以源文本作为锚点重写翻译。
- 研究精炼如何影响标准与神经评估指标,在高、中、低资源语言对中。
- 评估人类对 refined 与初始翻译在自然性与流畅度上的判断。
提出的方法
- 将翻译视为 y = argmax P(y|x, theta_mt) 然后再精炼 y' = argmax P(y'|x, y, theta_ape).
- 使用五种提示变体的零-shot 硬提示(Translate, Refine, Refine Contrast, Refine Random, Paraphrase)。
- 在多轮中迭代应用精炼和释义改写提示,同时以源输入为锚点。
- 用 BLEU, chrF++, COMET DA(基于参考),以及 COMET QE(无参考)进行评估。
- 进行以翻译腔、流畅性、自然性和语言使用为焦点的人类评估。
实验结果
研究问题
- RQ1在自动指标上,迭代精炼是否比初始 GPT 翻译带来更高的翻译质量?
- RQ2与参考译文及原生翻译相比, refinement 如何影响翻译腔和感知自然性?
- RQ3不同的精炼提示对质量与语言自然性的影响在不同语言对中如何表现?
- RQ4该方法在多方向的高、中、低资源设置下的表现如何?
主要发现
| 语言对 | 策略 | BLEU | chrF++ | COMET DA | COMET QE |
|---|---|---|---|---|---|
| de→en | 翻译 | 30.90 | 57.55 | .8606 | .1128 |
| de→en | 精炼 | 23.14 | 51.91 | .8525 | .1116 |
| de→en | 精炼对比 | 22.88 | 52.47 | .8452 | .1162 |
| de→en | 随机精炼 | 18.83 | 51.79 | .7777 | .0770 |
| de→en | 释义改写 | 11.01 | 40.05 | .8044 | .0919 |
| en→de | 翻译 | 25.39 | 53.54 | .8427 | .1083 |
| en→de | 精炼 | 22.35 | 50.57 | .8478 | .1153 |
| en→de | 精炼对比 | 22.54 | 51.21 | .8211 | .0929 |
| en→de | 随机精炼 | 19.36 | 46.56 | .7906 | .0832 |
| en→de | 释义改写 | 13.60 | 43.54 | .8197 | .1006 |
| zh→en | 翻译 | 25.64 | 53.74 | .8199 | .0867 |
| zh→en | 精炼 | 20.26 | 49.06 | .8156 | .0921 |
| zh→en | 精炼对比 | 24.81 | 51.77 | .8538 | .1132 |
| zh→en | 随机精炼 | 24.24 | 47.11 | .8323 | .1022 |
| zh→en | 释义改写 | 12.76 | 40.92 | .7931 | .0885 |
| en→zh | 翻译 | 29.28 | 20.61 | .8300 | .0761 |
| en→zh | 精炼 | 28.26 | 19.28 | .8417 | .0870 |
| en→zh | 精炼对比 | 29.28 | 19.69 | .8395 | .0881 |
| en→zh | 随机精炼 | 25.71 | 17.49 | .8126 | .0763 |
| en→zh | 释义改写 | 21.95 | 17.14 | .8144 | .0716 |
- 精炼后的输出在神经指标上达到或超过初始 GPT 翻译,尽管词汇/结构有较大变化。
- COMET QE 常常超过初始GPT翻译以及若干人类参考,尤其对于 into-English 方向。
- 人类评估者偏好经精炼的输出,
- Refine Contrast 往往优于 Translate,甚至优于某些参考。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。