QUICK REVIEW

[論文レビュー] Iterative Translation Refinement with Large Language Models

Pinzhen Chen, Zhicheng Guo|arXiv (Cornell University)|Jun 6, 2023

Natural Language Processing Techniques被引用数 14

ひとこと要約

本論文はGPT-3.5を反復的な洗練ループで用いて、より自然な翻訳を生成し翻訳偏を減らすことを提案する。ニューラル指標は同等または改善され、人間に好まれる傾向があり、特に英語への翻訳方向で顕著である。

ABSTRACT

We propose iteratively prompting a large language model to self-correct a translation, with inspiration from their strong language understanding and translation capability as well as a human-like translation approach. Interestingly, multi-turn querying reduces the output's string-based metric scores, but neural metrics suggest comparable or improved quality. Human evaluations indicate better fluency and naturalness compared to initial translations and even human references, all while maintaining quality. Ablation studies underscore the importance of anchoring the refinement to the source and a reasonable seed translation for quality considerations. We also discuss the challenges in evaluation and relation to human performance and translationese.

研究の動機と目的

機械翻訳出力における翻訳偏を回避する動機づけと、LLMが生成する翻訳の自然さの向上。
ソース文をアンカーとして使い翻訳を再記述する反復的な改良プロトコルを提案する。
高資源・中資源・低資源言語ペアにおいて、改良が標準的評価指標とニューラル評価指標にどう影響するかを調査する。
改良版と初期翻訳の自然さと流暢さについての人間の評価を評価する。

提案手法

翻訳を y = argmax P(y|x, theta_mt) によるとみなし、その後の改良を y' = argmax P(y'|x, y, theta_ape) とする。
Translate, Refine, Refine Contrast, Refine Random, Paraphrase の5つのプロンプト変種を用いたゼロショットハードプロンプトを使用する。
ソース入力にアンカーを置きつつ、複数回の反復改良とパラフレーズプロンプトを適用する。
BLEU、chrF++, COMET DA（参照ベース）、および COMET QE（参照なし）で評価する。
翻訳偏、流暢さ、自然さ、言語使用に焦点を当てた人間評価を実施する。

実験結果

リサーチクエスチョン

RQ1LLMによる反復改良は、初期のGPT翻訳を上回る自動評価指標で翻訳品質を向上させるか。
RQ2参照文および通常の翻訳と比較して、翻訳偏と知覚される自然さに対する改良の影響はどうなるか。
RQ3異なる改良プロンプトが、言語ペアを横断する品質と言語的自然さに与える影響はどうなるか。
RQ4複数の方向にわたる高資源・低資源・中資源設定でのアプローチの性能はどうか。

主な発見

Language Pair	Strategy	BLEU	chrF++	COMET DA	COMET QE
de→en	Translate	30.90	57.55	.8606	.1128
de→en	Refine	23.14	51.91	.8525	.1116
de→en	Refine Contrast	22.88	52.47	.8452	.1162
de→en	Refine Random	18.83	51.79	.7777	.0770
de→en	Paraphrase	11.01	40.05	.8044	.0919
en→de	Translate	25.39	53.54	.8427	.1083
en→de	Refine	22.35	50.57	.8478	.1153
en→de	Refine Contrast	22.54	51.21	.8211	.0929
en→de	Refine Random	19.36	46.56	.7906	.0832
en→de	Paraphrase	13.60	43.54	.8197	.1006
zh→en	Translate	25.64	53.74	.8199	.0867
zh→en	Refine	20.26	49.06	.8156	.0921
zh→en	Refine Contrast	24.81	51.77	.8538	.1132
zh→en	Refine Random	24.24	47.11	.8323	.1022
zh→en	Paraphrase	12.76	40.92	.7931	.0885
en→zh	Translate	29.28	20.61	.8300	.0761
en→zh	Refine	28.26	19.28	.8417	.0870
en→zh	Refine Contrast	29.28	19.69	.8395	.0881
en→zh	Refine Random	25.71	17.49	.8126	.0763
en→zh	Paraphrase	21.95	17.14	.8144	.0716

改良後の出力は、語彙・構造の大きな変化にもかかわらず、初期GPT翻訳と同等またはそれ以上のニューラル指標スコアを達成する。
特に英語方向への翻訳で、COMET QE は初期GPT翻訳や複数の人間参照をしばしば超える。
人間の評価者は改良後出力を初期翻訳より好む。Refine Contrast は Translate や一部の参照よりも好まれることが多い。
Paraphrase は指標全般で一般的に劣る。ソース文へのアンカーの重要性を示している。
適切な初期翻訳から始め、ソース入力にアンカーを置くことがトップ結果を達成する上で重要。
Refinement の利点は WMT 2021/2022 のシナリオ全体で継続し、ドイツ語-英語、英語-中国語、低資源方向を含む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。