[论文解读] Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine
本论文初步评估 ChatGPT 作为机器翻译的能力,显示 GPT-4 显著提升性能,接近商用系统,且 pivot prompting 有助于处理远距离语言。
This report provides a preliminary evaluation of ChatGPT for machine translation, including translation prompt, multilingual translation, and translation robustness. We adopt the prompts advised by ChatGPT to trigger its translation ability and find that the candidate prompts generally work well with minor performance differences. By evaluating on a number of benchmark test sets, we find that ChatGPT performs competitively with commercial translation products (e.g., Google Translate) on high-resource European languages but lags behind significantly on low-resource or distant languages. As for the translation robustness, ChatGPT does not perform as well as the commercial systems on biomedical abstracts or Reddit comments but exhibits good results on spoken language. Further, we explore an interesting strategy named $\mathbf{pivot~prompting}$ for distant languages, which asks ChatGPT to translate the source sentence into a high-resource pivot language before into the target language, improving the translation performance noticeably. With the launch of the GPT-4 engine, the translation performance of ChatGPT is significantly boosted, becoming comparable to commercial translation products, even for distant languages. Human analysis on Google Translate and ChatGPT suggests that ChatGPT with GPT-3.5 tends to generate more hallucinations and mis-translation errors while that with GPT-4 makes the least errors. In other words, ChatGPT has already become a good translator. Please refer to our Github project for more details: https://github.com/wxjiao/Is-ChatGPT-A-Good-Translator
研究动机与目标
- 评估翻译提示如何影响 ChatGPT 的输出。
- 在高资源语言与偏远语言中评估多语言翻译性能。
- 研究领域特定和嘈杂数据上的翻译鲁棒性。
- 探索 pivot prompting 提升偏远语言对的翻译质量。
- 评估以 GPT-4 作为翻译引擎对 ChatGPT 性能的影响。
提出的方法
- 使用三个候选提示(Tp1、Tp2、Tp3)触发翻译,并与 Google Translate、DeepL、Tencent TranSmart 进行比较。
- 在 Flores-101 上进行跨 101 种语言的多语言翻译评估。
- 在 WMT19 Bio 和 WMT20 Rob2/Rob3 鲁棒性集合上测试鲁棒性。
- 将直接的 ChatGPT 翻译与 pivot prompting 方法(源语言到中介语言再到目标语言)进行比较。
- 使用 GPT-4 重新评估翻译以衡量引擎影响。
实验结果
研究问题
- RQ1翻译提示如何影响 ChatGPT 在不同语言对上的翻译质量?
- RQ2在高资源语言与偏远语言上,ChatGPT 的表现相对于商业系统如何?
- RQ3pivot prompting 策略是否提升偏远语言对的翻译质量?
- RQ4作为引擎的 GPT-4 对 ChatGPT 的翻译性能有何影响?
- RQ5ChatGPT 的翻译对领域特定或嘈杂文本的鲁棒性如何?
主要发现
- 搭配 Tp3 的 ChatGPT 一般翻译尚可,但在 Chinese→English 上落后于商业基线;Tp3 是候选提示中表现最优。
- 在 German↔English 上,ChatGPT 与 Google Translate 和 DeepL 竞争力相当,但在 Romanian↔English 上显著较弱,凸显资源与语言族系效应。
- Pivot prompting 在偏远语言(例如 De/Zh, Ro/Zh)上的翻译显著提升,报道中最高可达约 6.6 BLEU 点。
- GPT-4 极大提升 ChatGPT 的翻译性能,在若干方向的零-shot 设置下达到与顶尖商用系统相当的水平。
- 人工分析显示 GPT-4 在比较系统中翻译错误最少,尽管在某些案例中 GPT-4 的 BLEU 仍低于 Google Translate。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。