QUICK REVIEW

[논문 리뷰] Large Language Models Are State-of-the-Art Evaluators of Translation Quality

Tom Kocmi, Christian Federmann|arXiv (Cornell University)|2023. 02. 28.

Topic Modeling인용 수 108

한 줄 요약

이 논문은 참조가 있거나 없는 경우에도 작동하는 번역 품질 평가 메트릭 GEMBA를 소개합니다. WMT22 MQM 데이터에서 세 가지 언어쌍에 대해 제로샷 프롬프트와 다양한 GPT 모델을 사용하여 시스템 수준에서 최첨단 정확도를 보였고, 재현성을 위한 코드와 프롬프트를 공개합니다.

ABSTRACT

We describe GEMBA, a GPT-based metric for assessment of translation quality, which works both with a reference translation and without. In our evaluation, we focus on zero-shot prompting, comparing four prompt variants in two modes, based on the availability of the reference. We investigate nine versions of GPT models, including ChatGPT and GPT-4. We show that our method for translation quality assessment only works with GPT~3.5 and larger models. Comparing to results from WMT22's Metrics shared task, our method achieves state-of-the-art accuracy in both modes when compared to MQM-based human labels. Our results are valid on the system level for all three WMT22 Metrics shared task language pairs, namely English into German, English into Russian, and Chinese into English. This provides a first glimpse into the usefulness of pre-trained, generative large language models for quality assessment of translations. We publicly release all our code and prompt templates used for the experiments described in this work, as well as all corresponding scoring results, to allow for external validation and reproducibility.

연구 동기 및 목표

GPT 기반 프롬프트가 시스템 수준에서 번역 품질을 정확하게 평가할 수 있음을 증명한다.
참조 기반 모드와 비참조 모드에서 네 가지 프롬프트 변형과 여덟 개의 GPT 모델을 평가한다.
GEMBA를 WMT22 메트릭과 비교하여 최첨단 성능을 확립한다.
언어 쌍별로 세그먼트 대 시스템 수준의 성능 및 모델 동작을 분석한다.

제안 방법

GEMBA를 시스템 수준 점수로 집계되는 세그먼트별 점수 메커니즘으로 정의한다.
두 가지 모드(참조 있음 및 참조 없음)에서 네 가지 프롬프트 템플릿(DA, SQM, Stars, Classes)을 실험한다.
제로샷 세그먼트 점수를 생성하기 위해 GPT-4를 기본으로 9개의 GPT 모델을 사용한다.
세그먼트 전체의 점수를 모아 시스템 수준의 지표를 얻는다.
WMT22의 MQM 기반 인간 레이블에 대해 평가하고, 자동 지표(예: COMET, BLEURT)와 비교한다.
강건성, 실패율 및 세그먼트 수준 상관관계(Kendall의 Tau)를 평가한다.

실험 결과

연구 질문

RQ1LLM이 프롬프트를 통해 미세조정 없이 번역 품질을 신뢰성 있게 평가할 수 있는가?
RQ2어떤 프롬프트 템플릿과 GPT 모델이 인간 MQM 판단과 가장 높은 상관관계를 보이는가?
RQ3참조 기반 및 비참조 GEMBA 변형이 WMT22 데이터에서 최첨단 성능을 달성하는가?
RQ4GEMBA의 시스템 수준 결과가 언어 쌍 간 기존 메트릭과 어떻게 비교되는가?
RQ5세그먼트-대 시스템 수준에서의 한계와 변동성은 어떠한가?

주요 결과

GPT-4를 사용한 참조 기반 설정의 GEMBA는 en-de, en-ru, zh-en에서 MQM 2022 데이터에 대한 시스템 수준 정확도에서 최첨단을 달성한다.
비참조 설정(품질 예측)에서의 GPT-4를 활용한 GEMBA는 비참조 지표 중에서 최고 수준의 시스템 수준 성능을 보이며, 참조 기반 GEMBA에 근접한 성능을 보인다.
네 가지 프롬프트 변형 중 가장 제약이 적은 Direct Assessment(DA) 템플릿이 최상의 성능을 보였다.
번역 품질 평가에는 GPT-3.5 이상의 대형 모델이 필요하며, GPT-2 및 Ada는 좋지 않거나 전혀 작동하지 않는다.
세그먼트 수준 상관관계(Kendall의 Tau)는 GPT-4와 Davinci-003에서 높지만 여전히 최고 메트릭에 비해 뒤처지며, 동률로 인한 Tau에 불확실성이 있을 수 있다.
GEMBA-DA 및 관련 프롬프트는 프롬 prompts와 모델 전반에서 1% 미만의 무효 응답으로 강건성을 보인다.
이 연구는 외부 검증과 재현성을 위해 공개적으로 사용 가능한 코드, 프롬프트 및 결과를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.