QUICK REVIEW

[논문 리뷰] Iterative Translation Refinement with Large Language Models

Pinzhen Chen, Zhicheng Guo|arXiv (Cornell University)|2023. 06. 06.

Natural Language Processing Techniques인용 수 14

한 줄 요약

논문은 GPT-3.5를 반복 정제 루프에 사용하여 더 자연스러운 번역을 생성하고 번역체를 줄이며, 신경망 메트릭은 비슷하거나 개선되며 사람에게 특히 영어로 번역하는 방향에서 선호된다.

ABSTRACT

We propose iteratively prompting a large language model to self-correct a translation, with inspiration from their strong language understanding and translation capability as well as a human-like translation approach. Interestingly, multi-turn querying reduces the output's string-based metric scores, but neural metrics suggest comparable or improved quality. Human evaluations indicate better fluency and naturalness compared to initial translations and even human references, all while maintaining quality. Ablation studies underscore the importance of anchoring the refinement to the source and a reasonable seed translation for quality considerations. We also discuss the challenges in evaluation and relation to human performance and translationese.

연구 동기 및 목표

머신 번역 출력에서 번역체를 피하고 LLM이 생성한 번역의 자연스러움을 향상시키는 동기 부여.
출처 텍스트를 앵커로 삼아 번역을 재작성하는 반복 정제 프로토콜을 제안.
고자원/중간자원/저자원 언어쌍에서 정제가 표준 및 신경 평가 지표에 미치는 영향 조사.
정제된 번역과 초기 번역에서 인간 판단의 자연스러움과 유창성을 평가.

제안 방법

번역을 y = argmax P(y|x, theta_mt) 다음에 정제 y' = argmax P(y'|x, y, theta_ape)로 처리.
다섯 개의 프롬프트 변형을 사용하는 제로샷 하드 프롬프트(번역, 정제, 정제 대비, 정제 임의, 의역) 활용.
소스 입력에 고정(anchor)되어 여러 라운드에 걸쳐 정제 및 패러프레이즈 프롬프트를 반복 적용.
BLEU, chrF++, COMET DA(참조 기반), COMET QE(참조 없음)로 평가.
정제의 자연스러움, 유창성, 네이티브한 사용 언어에 초점을 맞춘 인간 평가 수행.

실험 결과

연구 질문

RQ1LLM으로 반복 정제가 초기 GPT 번역보다 자동 지표에서 번역 품질을 향상시키는가?
RQ2정제가 번역체 및 참조 및 일반 번역 대비 자연스러움으로 인식에 어떤 영향을 주는가?
RQ3다른 정제 프롬프트가 품질과 언어적 자연성에 미치는 영향은 어떤가?
RQ4고자원/저자원 다방향에서 이 접근 방식의 성능은 어떤가?

주요 결과

언어 쌍	전략	BLEU	chrF++	COMET DA	COMET QE
de→en	Translate	30.90	57.55	.8606	.1128
de→en	Refine	23.14	51.91	.8525	.1116
de→en	Refine Contrast	22.88	52.47	.8452	.1162
de→en	Refine Random	18.83	51.79	.7777	.0770
de→en	Paraphrase	11.01	40.05	.8044	.0919
en→de	Translate	25.39	53.54	.8427	.1083
en→de	Refine	22.35	50.57	.8478	.1153
en→de	Refine Contrast	22.54	51.21	.8211	.0929
en→de	Refine Random	19.36	46.56	.7906	.0832
en→de	Paraphrase	13.60	43.54	.8197	.1006
zh→en	Translate	25.64	53.74	.8199	.0867
zh→en	Refine	20.26	49.06	.8156	.0921
zh→en	Refine Contrast	24.81	51.77	.8538	.1132
zh→en	Refine Random	24.24	47.11	.8323	.1022
zh→en	Paraphrase	12.76	40.92	.7931	.0885
en→zh	Translate	29.28	20.61	.8300	.0761
en→zh	Refine	28.26	19.28	.8417	.0870
en→zh	Refine Contrast	29.28	19.69	.8395	.0881
en→zh	Refine Random	25.71	17.49	.8126	.0763
en→zh	Paraphrase	21.95	17.14	.8144	.0716

정제된 출력은 초기 GPT 번역과 비교해 신경 메트릭 점수가 대략 같거나 더 높아지며, 어휘/구조의 큰 변화에도 불구하고.
COMET QE는 종종 초기 GPT 번역과 여러 인간 참조를 능가하며 특히 영어로의 방향에서 그렇다.
인간 평가자들은 초기 번역보다 정제된 출력을 선호하고, 정제 대비가 번역보다 종종 더 선호되며 일부 참조보다도 선호된다.
Paraphrase는 일반적으로 지표 전반에서 저조해, 원문 문장에 앵커링하는 것이 중요함을 강조한다.
합리적인 초기 번역에서 시작하고 소스 입력에 앵커링하는 것이 최상의 결과를 얻는 데 중요하다.
정제의 이점은 독일어-영어, 영어-중국어, 그리고 저자원 방향을 포함한 2021/2022년 WMT 시나리오 전반에 지속된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.