QUICK REVIEW

[논문 리뷰] Reassessing Claims of Human Parity and Super-Human Performance in Machine Translation at WMT 2019

Antonio Toral|arXiv (Cornell University)|2020. 05. 12.

Natural Language Processing Techniques참고 문헌 19인용 수 24

한 줄 요약

이 논문은 WMT 2019에서 제기된 인간 수준 성능 및 초인간 성능에 대한 주장에 도전하며, 인간 평가의 세 가지 핵심적 결함을 규명한다: 제한된 문간 맥락, 비전문 평가자, 기준 번역 기반 평가. 전문 번역가와 완전한 문서 맥락을 활용한 개선된 평가를 수행한 결과, 영어→독일어 번역에 대한 인간 수준 성능 외에는 모든 주장이 반박되었으며, 향후 기계 번역 평가에서 개선된 평가 기준이 필요하다고 주장한다.

ABSTRACT

We reassess the claims of human parity and super-human performance made at the news shared task of WMT 2019 for three translation directions: English-to-German, English-to-Russian and German-to-English. First we identify three potential issues in the human evaluation of that shared task: (i) the limited amount of intersentential context available, (ii) the limited translation proficiency of the evaluators and (iii) the use of a reference translation. We then conduct a modified evaluation taking these issues into account. Our results indicate that all the claims of human parity and super-human performance made at WMT 2019 should be refuted, except the claim of human parity for English-to-German. Based on our findings, we put forward a set of recommendations and open questions for future assessments of human parity in machine translation.

연구 동기 및 목표

WMT 2019에서 보고된 기계 번역 시스템의 인간 수준 성능 및 초인간 성능 주장의 타당성을 비판적으로 재평가하는 것.
한국어 번역 평가 설정의 세 가지 핵심 결함인 제한된 문간 맥락, 비전문 평가자, 기준 번역 기반 평가를 규명하고 분석하는 것.
이러한 결함를 보완한 수정된 평가를 수행하여 원래의 주장이 여전히 유효한지 확인하는 것.
특히 인간 수준 성능 평가에 있어 향후 기계 번역 시스템의 인간 평가에 실질적인 권고안을 제공하는 것.

제안 방법

비전문 번역자 대신 전문 번역가를 활용하여 WMT 2019 기계 번역 시스템의 수정된 인간 평가를 수행하였다.
평가자에게 전체 문서 맥락을 제공하여 이전 및 이후 문장을 모두 접근 가능하게 하여 정확한 평가를 보장하였다.
기준 번역 기반 평가를 제거하기 위해 비기준 번역 기반 접근 방식을 사용하여, 특히 독일어→영어 방향에서의 기준 편향을 제거하였다.
높은 품질과 낮은 품질의 인간 번역과 비교하여 기계 번역 출력의 강건성을 테스트함으로써 인간 수준 성능 주장의 타당성을 검증하였다.
통계적 분석을 통해 인간 번역과 기계 번역 간의 차이가 유의미한지 평가하였다.
결과를 바탕으로 원래 WMT 2019의 주장 재평가를 수행하였으며, 영어→독일어, 영어→러시아어, 독일어→영어 번역 방향을 중심으로 분석하였다.

실험 결과

연구 질문

RQ1제한된 문간 맥락과 문서 수준 맥락의 부재는 기계 번역 평가에서 인간 평가의 신뢰성에 어떤 영향을 미치는가?
RQ2평가자의 번역 능력은 기계 번역 품질에 대한 인식과 인간 수준 성능 주장의 타당성에 어떤 영향을 미치는가?
RQ3기준 번역 기반 평가는 어느 정도의 편향을 유도하며, 기계 번역 성능 평가에 왜곡을 초래하는가?
RQ4개선된 조건에서 평가했을 때, 어떤 기계 번역 시스템이 진정으로 인간 수준 성능 또는 초인간 성능을 달성하는가?
RQ5향후 기계 번역 평가에서 인간 수준 성능 주장의 타당성과 신뢰성을 확보하기 위해 어떤 방법론적 개선이 필요한가?

주요 결과

영어→독일어 번역에 있어서 인간 수준 성능 주장은 전문 번역가와 완전한 문서 맥락을 활용한 평가에서도 유효하다.
그 외의 모든 인간 수준 성능 및 초인간 성능 주장—특히 영어→러시아어 및 독일어→영어 방향—은 개선된 평가 조건에서 반박되었다.
비전문 평가자의 사용은 더 관대한 점수 평가를 초래하였으며, 이는 기계 번역 품질에 대한 과대평가와 인간 수준 성능에 대한 잘못된 주장의 원인이 되었다.
기준 번역 기반 평가는 특히 독일어→영어 방향에서 편향을 유도하였으며, 기준 번역이 평가 결과에 영향을 미쳐 인간 수준 성능 주장이 도출된 것으로 보인다.
전문 번역가 간의 평가자 간 일致도가 비전문 평가자보다 유의미하게 높았으며, 이는 전문 평가자의 평가가 비전문 평가자보다 더 신뢰할 수 있음을 시사한다.
본 연구는 현재 기계 번역 평가 관행, 특히 WMT와 같은 고위험 경쟁 대회에서 인간 수준 성능 또는 초인간 성능에 대한 결정적인 주장이 가능하지 않음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.