Skip to main content
QUICK REVIEW

[논문 리뷰] How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation

Amr Hendy, Mohamed Abdelrehim|arXiv (Cornell University)|2023. 02. 18.
Topic Modeling인용 수 184
한 줄 요약

본 논문은 GPT 모델(ChatGPT, text-davinci-003, text-davinci-002)을(를) 이용한 기계 번역을 18개 언어 방향에 걸쳐 평가하여, 고자원 언어에서 강한 성능을 보이고, 저자원 언어에 대해서는 제한된 역량을 가지며, 프롬프트 전략, 문서 수준 번역, 그리고 하이브리드 GPT+NMT 접근 방식의 이점을 보여준다.

ABSTRACT

Generative Pre-trained Transformer (GPT) models have shown remarkable capabilities for natural language generation, but their performance for machine translation has not been thoroughly investigated. In this paper, we present a comprehensive evaluation of GPT models for machine translation, covering various aspects such as quality of different GPT models in comparison with state-of-the-art research and commercial systems, effect of prompting strategies, robustness towards domain shifts and document-level translation. We experiment with eighteen different translation directions involving high and low resource languages, as well as non English-centric translations, and evaluate the performance of three GPT models: ChatGPT, GPT3.5 (text-davinci-003), and text-davinci-002. Our results show that GPT models achieve very competitive translation quality for high resource languages, while having limited capabilities for low resource languages. We also show that hybrid approaches, which combine GPT models with other translation systems, can further enhance the translation quality. We perform comprehensive analysis and human evaluation to further understand the characteristics of GPT translations. We hope that our paper provides valuable insights for researchers and practitioners in the field and helps to better understand the potential and limitations of GPT models for translation.

연구 동기 및 목표

  • GPT 모델의 고자원 및 저자원 언어 간 번역 품질을 평가한다.
  • 프롬프트 전략(제로샷, 소샷)과 이들의 번역 성능에 미치는 영향을 탐구한다.
  • 문서 수준 번역 가능성과 도메인 변화에 따른 강건성을 평가한다.
  • GPT 모델과 최첨단 연구 및 상용 시스템을 비교한다.
  • GPT와 기존 NMT 시스템의 결합 가능성과 이점을 조사한다.

제안 방법

  • GPT 변형(text-davinci-002, text-davinci-003, ChatGPT)을 WMT-Best 및 Microsoft Translator와 18개의 언어 쌍에 대해 비교한다.
  • 제로샷 및 소샷 프롬핑을 사용해 맥락 학습 효과를 평가한다.
  • 평가에 COMET-22, COMETkiwi 같은 신경망 MT 지표와 BLEU, ChrF 같은 렉시컬 지표를 사용하고, 문서 수준 적응(Doc-COMETkiwi)도 적용한다.
  • 문서 수준 평가를 위한 Doc-COMETkiwi를 위해 sliding-window overlap으로 COMET-kiwi를 조정한다.
  • 지표 기반 평가를 보완하기 위해 인간 평가를 수행한다.
  • 번역 결과에 미치는 프롬프트 설계(품질 및 관련성)와 그 영향 분석을 수행한다.
Figure 1: Comparing COMET-22 scores of hybrid MS-Translator and GPT systems with GPT and MS-Translator systems.
Figure 1: Comparing COMET-22 scores of hybrid MS-Translator and GPT systems with GPT and MS-Translator systems.

실험 결과

연구 질문

  • RQ1GPT 모델이 다양한 언어 쌍에서 최첨단 연구 및 상용 시스템과 비교했을 때 기계 번역에서 어떤 성능을 보이는가?
  • RQ2제로샷 대 소샷 프롬핑 전략이 GPT 번역 품질에 미치는 영향은 무엇인가(샷의 품질과 관련성 포함)?
  • RQ3문서 수준에서 GPT 모델이 효과적으로 번역할 수 있는가, 그리고 맥락이 성능에 어떤 영향을 미치는가?
  • RQ4도메인 변화에 대한 GPT 번역의 강건성은 어떠하며 비영어 중심 번역과의 보완 가능성은 있는가? GPT가 전통적인 NMT 시스템을 보완하는가?
  • RQ5NMT와 비교했을 때 GPT 번역의 특성 및 한계(인공물 및 교차 언어 이점 포함)는 무엇인가?

주요 결과

  • GPT 모델은 고자원 언어에서 매우 경쟁력 있는 번역 품질을 달성하지만 저자원 언어에 대해서는 한계가 있다.
  • 특히 소샷 고품질 샷이 일부 방향에서 성능을 향상시킬 수 있으며, 영어에서 다른 언어로 번역할 때 더욱 두드러진다.
  • GPT를 이용한 문서 수준 번역은 더 넓은 맥락을 활용할 수 있으며, 적절한 평가 지표에 따라 일부 기준 시스템에 근접하거나 능가할 수 있다.
  • GPT 모델과 기존 NMT 시스템을 결합한 하이브리드 방식이 번역 품질을 더 향상시킬 수 있다.
  • 인간 평가 및 상세한 분석은 GPT 번역의 강점과 약점을 드러내고, 인공물 패턴과 교차 언어 행동에 대한 통찰을 제공한다.
How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.