[논문 리뷰] Translationese in Machine Translation Evaluation
논문은 번역체가 MT 평가에 미치는 영향을 분석하고, 역으로 생성된 테스트 데이터가 결과에 편향을 줄 수 있음을 보여주며, 인간-동등성(human-parity) 주장 재평가, 테스트의 검정력 분석, 그리고 실용적인 평가 체크리스트를 제시한다.
The term translationese has been used to describe the presence of unusual features of translated text. In this paper, we provide a detailed analysis of the adverse effects of translationese on machine translation evaluation results. Our analysis shows evidence to support differences in text originally written in a given language relative to translated text and this can potentially negatively impact the accuracy of machine translation evaluations. For this reason we recommend that reverse-created test data be omitted from future machine translation test sets. In addition, we provide a re-evaluation of a past high-profile machine translation evaluation claiming human-parity of MT, as well as analysis of the since re-evaluations of it. We find potential ways of improving the reliability of all three past evaluations. One important issue not previously considered is the statistical power of significance tests applied in past evaluations that aim to investigate human-parity of MT. Since the very aim of such evaluations is to reveal legitimate ties between human and MT systems, power analysis is of particular importance, where low power could result in claims of human parity that in fact simply correspond to Type II error. We therefore provide a detailed power analysis of tests used in such evaluations to provide an indication of a suitable minimum sample size of translations for such studies. Subsequently, since no past evaluation that aimed to investigate claims of human parity ticks all boxes in terms of accuracy and reliability, we rerun the evaluation of the systems claiming human parity. Finally, we provide a comprehensive check-list for future machine translation evaluation.
연구 동기 및 목표
- 번역체가 인간 및 자동 MT 평가 결과에 미치는 영향을 평가한다.
- 정방향(original language)과 역방향(번역된) 테스트 데이터 간의 차이를 정량화한다.
- 과거의 인간-동등성 MT 평가를 재평가하고 부정확성의 원인을 분석한다.
- MT 인간-동등성 평가에서 사용된 검정력 분석을 수행한다.
- 향후 MT 평가를 위한 실용적 체크리스트를 제공한다.
제안 방법
- 인간(Direct Assessment) 및 BLEU 지표를 사용하여 과거 WMT 평가의 정방향 및 역방향 테스트 데이터를 비교한다.
- 시스템마다 정방향 대 역방향 점수를 계산하고 점수 차이를 분석한다.
- MT 평가를 위한 적절한 표본 크기를 추정하기 위한 검정력 분석을 수행한다.
- 업데이트된 방법론과 더 큰 n으로 Hassan et al. (2018) 인간-동등성 평가를 다시 수행한다.
- BLEU 점수 해석을 조사하기 위해 문장 길이와 unigram 정확도를 분석한다.
- 향후 MT 평가 설계를 위한 고려사항 체크리스트를 제시한다.
실험 결과
연구 질문
- RQ1테스트 데이터의 번역체가 인간 및 자동 지표 하에서 MT 평가 결과에 어떤 영향을 미치는가?
- RQ2정방향 대 역방향 테스트 데이터가 시스템 순위 및 인식되는 인간 동등성에 어느 정도 영향을 미치는가?
- RQ3MT 인간-동등성 평가에 사용된 유의성 검정의 검정력은 어느 정도이며, 적절한 표본 크기는 무엇인가?
- RQ4과거의 고부가 가치 평가를 방법론 및 데이터 처리 방식 재검토로 더 신뢰할 수 있게 만들 수 있는가?
주요 결과
- 역으로 생성된 테스트 데이터가 일반적으로 많은 언어쌍에서 인간 평가 점수를 정방향 데이터보다 높게 나타낸다.
- BLEU 점수 차이가 정방향과 역방향 테스트 데이터 간에 더 크고 작은 역방향 점수의 조합을 보이며 문장 단위 변동에 의해 좌우된다.
- 시스템 쌍 간 BLEU 및 DA 점수의 상대적 차이는 절대 점수보다 더 안정적이며 순위 해석을 주의해야 한다는 것을 시사한다.
- 검정력 분석은 이전의 인간-동등성 평가에서 힘이 부족한 검정이 있었음을 보여주며 제2종 오류 위험을 시사한다.
- 업데이트된 WMT 방법론과 더 큰 서로 다른 번역 세트를 사용한 재평가가 인간 동등성의 더 신뢰할 만한 평가를 제공하고 남아 있는 부정확성의 원인을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.