[논문 리뷰] Document-Level Machine Translation with Large Language Models
본 논문은 문서-수준 번역에 대해 GPT-3.5와 GPT-4를 평가하고, 인간 평가에서의 품질과 담화 의식이 강하게 나타남을 발견하며, 담화 모형화에 영향을 주는 프롬프트, 모델 및 학습 기법을 분석한다.
Large language models (LLMs) such as ChatGPT can produce coherent, cohesive, relevant, and fluent answers for various natural language processing (NLP) tasks. Taking document-level machine translation (MT) as a testbed, this paper provides an in-depth evaluation of LLMs' ability on discourse modeling. The study focuses on three aspects: 1) Effects of Context-Aware Prompts, where we investigate the impact of different prompts on document-level translation quality and discourse phenomena; 2) Comparison of Translation Models, where we compare the translation performance of ChatGPT with commercial MT systems and advanced document-level MT methods; 3) Analysis of Discourse Modelling Abilities, where we further probe discourse knowledge encoded in LLMs and shed light on impacts of training techniques on discourse modeling. By evaluating on a number of benchmarks, we surprisingly find that LLMs have demonstrated superior performance and show potential to become a new paradigm for document-level translation: 1) leveraging their powerful long-text modeling capabilities, GPT-3.5 and GPT-4 outperform commercial MT systems in terms of human evaluation; 2) GPT-4 demonstrates a stronger ability for probing linguistic knowledge than GPT-3.5. This work highlights the challenges and opportunities of LLMs for MT, which we hope can inspire the future design and evaluation of LLMs.We release our data and annotations at https://github.com/longyuewangdcu/Document-MT-LLM.
연구 동기 및 목표
- 맥락 인식형 프롬프트가 문서-수준 번역 품질 및 담화 현상에 어떤 영향을 미치는지 평가한다.
- 담화 인식을 고려한 번역에 대해 ChatGPT를 상업용 MT 시스템 및 고급 문서 수준 MT 방법과 비교한다.
- ChatGPT와 학습 기법이 문서 수준 MT를 위해 담화 지식을 어떻게 인코딩하고 활용하는지 분석한다.
제안 방법
- 긴 텍스트를 번역하도록 ChatGPT를 안내하는 세 가지 문서 수준 프롬프트(P1, P2, P3).
- ChatGPT(GPT-3.5 및 GPT-4)를 Google 번역, DeepL, Tencent TranSmart 등 상업용 MT 및 문서 수준 MT 방법과 체계적으로 비교한다.
- 자동 지표(BLEU, d-BLEU, TER, COMET)와 일반/담화 인식을 포함한 인간 평가, 더불어 담화 지표(cTT, aZPT) 등 표적 담화 지표를 사용한 평가.
- 지시(deixis), 어휘 일관성, 생략 등 대비 테스트와 설명을 통해 담화 지식을 탐색하고 예측-설명 정렬성을 평가한다.
- 학습 기법(SFT, 코드 사전 학습, RLHF)의 분석과 이들이 번역 및 담화 모형화에 미치는 영향을 분석한다.

실험 결과
연구 질문
- RQ1맥락 인식 프롬프트가 LLM의 문서 수준 번역 품질 및 담화 현상에 어떤 영향을 미치는가?
- RQ2문서 수준 번역 벤치마크에서 ChatGPT가 상업용 MT 시스템 및 최첨단 문서 수준 MT 방법과 어떻게 비교되는가?
- RQ3LLM이 담화 지식을 얼마나 인코딩하고 활용하는가, 그리고 학습 기법이 담화 모형화에 어떤 영향을 미치는가?
- RQ4LLM 기반 문서 MT를 평가할 때 데이터 오염 및 평가 방법론의 효과와 위험은 무엇인가?
주요 결과
- LLMs(GPT-3.5, GPT-4)는 여러 도메인에서 문서 수준 번역에 대한 인간 평가에서 상업용 MT 시스템보다 우수할 수 있다.
- GPT-4는 GPT-3.5보다 언어 지식 탐색 능력이 더 강력함을 보여준다.
- 프롬프트 중 P3(엄격한 문장 경계 없이 문서 수준 번역)가 일반적으로 최상의 결과를 내고 담화 의식 향상을 보인다.
- ChatGPT는 인간 평가에서 일부 문서 수준 MT 베이스라인보다 우수한 성과를 보이나 도메인 및 데이터에 따라 결과가 다르다.
- 코드 사전 학습, 지도적 미세 조정(SFT), RLHF와 같은 학습 기법은 번역 품질과 담화 모형화를 향상시킬 수 있으며, 특히 RLHF가 눈에 띄는 향상을 제공한다.
- 자동 지표(예: d-BLEU)와 인간 평가 사이에 현저한 불일치가 있어, 문서 수준 MT에서 인간 평가의 가치가 강조된다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.