QUICK REVIEW

[논문 리뷰] Estimating post-editing effort: a study on human judgements, task-based and reference-based metrics of MT quality

Carolina Scarton, Mikel L. Forcada|arXiv (Cornell University)|2019. 11. 02.

Natural Language Processing Techniques참고 문헌 30인용 수 2

한 줄 요약

이 연구는 기계 번역에서 후처리 작업량을 추정하기 위한 메트릭스를 평가하며, 작업 기반 메트릭스, 인간 평가(DA), 기준 기반 메트릭스를 비교한다. 연구 결과, 작업 기반 메트릭스—기계 번역된 텍스트와 후처리된 텍스트 간의 차이를 측정하는 방식—가 후처리 작업량을 가장 정확하게 추적함을 확인하였고, 그 다음으로 직접 평가와 기준 기반 메트릭스가 뒤이었다.

ABSTRACT

Devising metrics to assess translation quality has always been at the core of machine translation (MT) research. Traditional automatic reference-based metrics, such as BLEU, have shown correlations with human judgements of adequacy and fluency and have been paramount for the advancement of MT system development. Crowd-sourcing has popularised and enabled the scalability of metrics based on human judgments, such as subjective direct assessments (DA) of adequacy, that are believed to be more reliable than reference-based automatic metrics. Finally, task-based measurements, such as post-editing time, are expected to provide a more de- tailed evaluation of the usefulness of translations for a specific task. Therefore, while DA averages adequacy judgements to obtain an appraisal of (perceived) quality independently of the task, and reference-based automatic metrics try to objectively estimate quality also in a task-independent way, task-based metrics are measurements obtained either during or after performing a specific task. In this paper we argue that, although expensive, task-based measurements are the most reliable when estimating MT quality in a specific task; in our case, this task is post-editing. To that end, we report experiments on a dataset with newly-collected post-editing indicators and show their usefulness when estimating post-editing effort. Our results show that task-based metrics comparing machine-translated and post-edited versions are the best at tracking post-editing effort, as expected. These metrics are followed by DA, and then by metrics comparing the machine-translated version and independent references. We suggest that MT practitioners should be aware of these differences and acknowledge their implications when decid- ing how to evaluate MT for post-editing purposes.

연구 동기 및 목표

다양한 MT 품질 메트릭스가 후처리 작업량을 추정하는 데 있어 신뢰성 있는지 평가하기 위해.
작업 기반 메트릭스(후처리 시간 및 노력), 인간 평가(적합성에 대한 직접 평가), 기준 기반 자동 메트릭스(예: BLEU)를 비교하기 위해.
실제 번역 작업 환경에서 실제 후처리 작업 부담과 가장 잘 상관관계를 가지는 메트릭스 유형을 특정하기 위해.
후처리 시나리오에서 적절한 평가 방법을 선택하는 데 실용적인 지침을 제공하기 위해.

제안 방법

후처리 지표를 포함한 새로운 데이터셋을 수집하였으며, 이는 후처리 과정 중 시간 및 노력 측정을 포함한다.
기계 번역된 버전과 후처리된 버전를 비교하여 작업 기반 메트릭스를 적용하여 수행된 변경 사항을 정량화하였다.
기계 번역의 적합성에 대한 인간 평가를 위해 직접 평가(DA)를 사용하였다.
독립적인 기준 번역을 사용하여 기준 기반 자동 메트릭스(예: BLEU)를 계산하였다.
각 메트릭스 유형을 데이터셋에서 측정된 실제 후처리 노력과 상관관계를 분석하였다.
통계적 분석을 통해 각 메트릭스 유형의 예측 능력을 평가하여 효과성 순으로 순위를 매겼다.

실험 결과

연구 질문

RQ1작업 기반 메트릭스는 실제 후처리 작업량과 얼마나 잘 상관관계를 가지는가?
RQ2인간의 직접 평가(DA) 점수는 작업 기반 메트릭스에 비해 후처리 작업량을 추정하는 데 어떻게 비교되는가?
RQ3기준 기반 자동 메트릭스(예: BLEU)는 작업 기반 및 DA 메트릭스에 비해 후처리 작업량 예측에 어떻게 성능을 발휘하는가?
RQ4실제 번역 환경에서 후처리 작업량을 가장 신뢰성 있게 추정할 수 있는 메트릭스 유형은 무엇인가?

주요 결과

기계 번역된 텍스트와 후처리된 텍스트 간의 차이를 측정하는 작업 기반 메트릭스가 실제 후처리 작업량과 가장 강한 상관관계를 보였다.
적합성에 대한 직접 평가(DA)는 후처리 작업량을 둘째로 잘 예측하는 요소였으며, 인간 평가의 가치가 여전히 높음을 시사한다.
BLEU와 같은 기준 기반 자동 메트릭스는 광범위하게 사용되지만, 후처리 작업량 추정에 가장 낮은 성능을 보였다.
이 연구는 작업 기반 메트릭스가 작업에 특화된 성격을 지니기 때문에, 후처리 맥락에서 MT 품질 평가에 가장 신뢰할 수 있다는 점을 확인한다.
결과는 기준 기반 메트릭스에만 의존할 경우의 한계를 부각시킨다.
MT 전문가들은 후처리 워크플로우에서 시스템 평가를 위해 작업 기반 메트릭스를 우선적으로 고려해야 하며, 이를 통해 정확한 노력 추정이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.