Skip to main content
QUICK REVIEW

[논문 리뷰] Adaptive Machine Translation with Large Language Models

Yasmin Moslem, Rejwanul Haque|arXiv (Cornell University)|2023. 01. 30.
Natural Language Processing Techniques인용 수 42
한 줄 요약

이 논문은 도메인 용어와 스타일에 맞춘 실시간 적응형 MT를 대형 언어 모델(GPT-3.5, GPT-4, BLOOM)의 in-context 학습을 활용하여 연구하며, 다섯 언어 쌍에 걸쳐 퍼지 매칭과 용어 제약 MT를 포함한 도메인 용어 및 스타일 매칭을 다룬다.

ABSTRACT

Consistency is a key requirement of high-quality translation. It is especially important to adhere to pre-approved terminology and adapt to corrected translations in domain-specific projects. Machine translation (MT) has achieved significant progress in the area of domain adaptation. However, real-time adaptation remains challenging. Large-scale language models (LLMs) have recently shown interesting capabilities of in-context learning, where they learn to replicate certain input-output text generation patterns, without further fine-tuning. By feeding an LLM at inference time with a prompt that consists of a list of translation pairs, it can then simulate the domain and style characteristics. This work aims to investigate how we can utilize in-context learning to improve real-time adaptive MT. Our extensive experiments show promising results at translation time. For example, LLMs can adapt to a set of in-domain sentence pairs and/or terminology while translating a new sentence. We observe that the translation quality with few-shot in-context learning can surpass that of strong encoder-decoder MT systems, especially for high-resource languages. Moreover, we investigate whether we can combine MT from strong encoder-decoder models with fuzzy matches, which can further improve translation quality, especially for less supported languages. We conduct our experiments across five diverse language pairs, namely English-to-Arabic (EN-AR), English-to-Chinese (EN-ZH), English-to-French (EN-FR), English-to-Kinyarwanda (EN-RW), and English-to-Spanish (EN-ES).

연구 동기 및 목표

  • LLM의 in-context 학습이 추가 파인튜닝 없이도 번역을 도메인 용어와 스타일에 적응시킬 수 있는지 평가한다.
  • 다양한 언어에 걸친 인코더-디코더 MT 시스템에 비해 LLM 기반의 적응형 MT의 성능을 평가한다.
  • 설명 몇 샷 프롬프트에서의 번역 기억(퍼지 매치)의 번역 품질에 대한 영향을 조사한다.
  • 프롬프트에서 용어 추출과 용어 제약 MT가 LLM의 번역 품질에 미치는 효과를 검토한다.

제안 방법

  • API를 통한 top-p=1 및 온도 낮은 설정으로 GPT-3.5 text-davinci-003를 번역 작업에 활용하고 용어 추출은 제로 온도로 수행한다.
  • 도메인 특정 TM 데이터세트(TICO-19)에서의 맥락과 서로 다른 수의 퍼지 매치(1–10)를 소샷 예제로 반영한 프롬프트를 구성한다.
  • Sentence-Transformers의 all-MiniLM-L6-v2를 이용한 임베딩 기반 최근접 이웃 검색으로 퍼지 매치를 검색한다.
  • EN-AR, EN-ZH, EN-FR, EN-RW, EN-ES에서 GPT-3.5 기반의 적응형 MT를 오픈 소스 및 상용 인코더-디코더 MT 시스템(OPUS, NLLB, Google, DeepL)과 비교한다.
  • 인코더-디코더 모델의 MT 출력과 GPT-3.5 프롬프트를 결합하여 실험하거나 퍼지 매치를 직접 번역하는 방식으로 실험한다.
  • GPT-3.5를 이용한 용어 추출을 탐색하고 프롬프트에 용어집 용어를 임베딩하여 용어 제약 MT를 구현한다.
Figure 1: Evaluation results for GPT-3.5 zero-shot, and few-shot translation with random context or fuzzy matches. Average scores across EN-AR, EN-ES, EN-FR, and EN-ZH language pairs. While using a random context outperforms zero-shot translation, using fuzzy matches reveals the best results.
Figure 1: Evaluation results for GPT-3.5 zero-shot, and few-shot translation with random context or fuzzy matches. Average scores across EN-AR, EN-ES, EN-FR, and EN-ZH language pairs. While using a random context outperforms zero-shot translation, using fuzzy matches reveals the best results.

실험 결과

연구 질문

  • RQ1LLM의 in-context 학습이 추가 파인튜닝 없이 도메인 특정 번역 패턴을 재현할 수 있는가?
  • RQ2GPT-3.5/4 및 BLOOM 변형이 퍼지 매치를 제공받을 때 도메인 내 번역에서 강력한 인코더-디코더 MT 시스템보다 성능이 우수한가?
  • RQ3언어별로 퍼지 매치의 수를 늘리는 것이 번역 품질에 어떤 영향을 미치는가?
  • RQ4프롬프트에 인코더-디코더 모델의 MT 출력이 포함되면 GPT-3.5의 번역이 개선되는가?
  • RQ5프롬프트에서 용어 추출 및 용어집 통합이 일관성과 번역 품질을 개선하는가?

주요 결과

  • 퍼지 매치를 포함한 소샷 in-context 학습은 0샷 및 무작위 맥락 프롬프트 대비 다수의 언어 쌍에서 번역 품질을 향상시킨다.
  • EN-AR, EN-ES, EN-FR, EN-ZH 전반에서 GPT-3.5는 5–10개의 퍼지 매치를 사용하면 일부 고자원 쌍에서 강력한 인코더-디코더 MT 시스템을 능가할 수 있으며, 일부 언어는 더 많은 매치로부터 이득을 본다.
  • GPT-3.5 번역과 인코더-디코더 모델의 MT 출력의 결합은 일부 언어 쌍(예: EN-AR, EN-ZH, EN-FR, EN-ES)에서 상당한 이득을 주지만 모든 경우에 해당하지는 않는다.
  • 프롬프트에서 용어집 용어를 사용한 용어 제약 MT는 도메인 용어 준수를 개선하고 전반적인 번역 품질을 높일 수 있으며, 사람 평가에서 용어 전이 및 품질 측정이 증가함을 보여준다.
  • 제로-샷 용어 제약 프롬프트는 일부 경우 소수 샷 프롬프트와 유사한 이득을 보여줄 수 있지만 문법 정확성과의 균형 문제가 발생할 수 있다.
Figure 2: Evaluation results for GPT-3.5 few-shot translation with 5 or 10 fuzzy matches compared to encoder-decoder MT models (DeepL, Google, OPUS, and NLLB). Specifically, for EN-ES, EN-FR, and EN-ZH language pairs, few-shot translation with GPT-3.5 outperforms conventional systems.
Figure 2: Evaluation results for GPT-3.5 few-shot translation with 5 or 10 fuzzy matches compared to encoder-decoder MT models (DeepL, Google, OPUS, and NLLB). Specifically, for EN-ES, EN-FR, and EN-ZH language pairs, few-shot translation with GPT-3.5 outperforms conventional systems.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.