Skip to main content
QUICK REVIEW

[논문 리뷰] eSCAPE: a Large-scale Synthetic Corpus for Automatic Post-Editing

Matteo Negri, Marco Turchi|arXiv (Cornell University)|2018. 03. 20.
Natural Language Processing Techniques참고 문헌 21인용 수 37
한 줄 요약

이 논문은 영어-독어에 대해 1440만 개, 영어-이탈리아어에 대해 660만 개의 (원천, MT, 후편집) 삼중항을 포함한 대규모 합성 코퍼스 eSCAPE를 소개한다. 이 코퍼스는 공공의 병렬 코퍼스에서 원천 문장을 가져와 문장 기반 기계 번역(SMT) 및 신경 기계 번역(NMT) 시스템을 사용해 번역한 결과물이며, 자동 후편집(APE) 성능 향상에 통계적으로 유의미한 개선을 이끌어내며, 실제 인간 후편집 데이터 없이도 합성 데이터만으로도 효과적인 신경 APE 모델을 훈련시킬 수 있음을 보여준다. 이는 일반 도메인 환경에서의 신경 APE 모델 훈련에 매우 효과적이다.

ABSTRACT

Training models for the automatic correction of machine-translated text usually relies on data consisting of (source, MT, human post- edit) triplets providing, for each source sentence, examples of translation errors with the corresponding corrections made by a human post-editor. Ideally, a large amount of data of this kind should allow the model to learn reliable correction patterns and effectively apply them at test stage on unseen (source, MT) pairs. In practice, however, their limited availability calls for solutions that also integrate in the training process other sources of knowledge. Along this direction, state-of-the-art results have been recently achieved by systems that, in addition to a limited amount of available training data, exploit artificial corpora that approximate elements of the "gold" training instances with automatic translations. Following this idea, we present eSCAPE, the largest freely-available Synthetic Corpus for Automatic Post-Editing released so far. eSCAPE consists of millions of entries in which the MT element of the training triplets has been obtained by translating the source side of publicly-available parallel corpora, and using the target side as an artificial human post-edit. Translations are obtained both with phrase-based and neural models. For each MT paradigm, eSCAPE contains 7.2 million triplets for English-German and 3.3 millions for English-Italian, resulting in a total of 14,4 and 6,6 million instances respectively. The usefulness of eSCAPE is proved through experiments in a general-domain scenario, the most challenging one for automatic post-editing. For both language directions, the models trained on our artificial data always improve MT quality with statistically significant gains. The current version of eSCAPE can be freely downloaded from: http://hltshare.fbk.eu/QT21/eSCAPE.html.

연구 동기 및 목표

  • 자동 후편집(APE) 시스템을 위한 대규모 고품질 (원천, MT, 인간 후편집) 훈련 데이터 부족 문제를 해결하기 위해.
  • 伝통적인 문장 기반 접근 방식보다 훨씬 더 많은 훈련 데이터가 필요한 신경 APE 모델의 증가하는 데이터 수요를 충족시키기 위해.
  • 기계 번역 출력물을 인공 후편집으로 사용해 실제 후편집 데이터에 유사한 대규모 합성 코퍼스를 무료로 제공하기 위해.
  • 실제 후편집 데이터가 제한된 일반 도메인 및 혼합 도메인 환경에서 최신 신경 APE 모델을 훈련시킬 수 있도록 하기 위해.
  • 다양하고 도전적인 언어 조합에서 합성 데이터의 효과성을 평가하기 위해.

제안 방법

  • eSCAPE는 공공에서 이용 가능한 병렬 코퍼스에서 원천 문장을 추출하여, 문장 기반 기계 번역(SMT) 및 신경 기계 번역(NMT) 시스템을 사용해 번역함으로써 구축된다.
  • 각 원천 문장에 대해 생성된 MT 출력물을 후편집의 '원천'으로 간주하고, 병렬 코퍼스의 원래 타겟 문장을 인공 '후편집' 기준으로 사용한다.
  • 코퍼스는 SMT로 생성된 MT 출력물과 NMT로 생성된 MT 출력물로 나누어지며, 서로 다른 기계 번역 철학에 대한 비교 연구를 가능하게 한다.
  • 훈련 데이터를 사용해 신경 APE 모델를 미세조정함으로써, 원천 문장과 MT 출력물을 입력으로 받아 인간처럼 후편집을 예측하는 모델을 학습시킨다.
  • 표준 평가 지표인 BLEU와 TER를 사용해, 원본 MT 출력물(Do-nothing 기준) 및 인간 후편집 결과와의 비교를 통해 모델 성능을 평가한다.
  • 코퍼스는 연구 목적을 위해 http://hltshare.fbk.eu/QT21/eSCAPE.html 에 공개되어 있다.

실험 결과

연구 질문

  • RQ1기계 번역 출력물에서 유도된 대규모 합성 코퍼스가 신경 APE 모델을 효과적으로 훈련시켜 번역 품질을 향상시킬 수 있는가?
  • RQ2일반 도메인 및 혼합 도메인 환경에서 합성 데이터로 훈련된 APE 모델의 성능이 Do-nothing 기준보다 뛰어나게 향상되는가?
  • RQ3문장 기반 기계 번역(SMT)에서 유도된 합성 데이터로 훈련된 APE 모델의 성능 향상이 신경 기계 번역(NMT) 출력물에서 유도된 데이터로 훈련된 모델보다 뛰어나게 되는가?
  • RQ4기초 기계 번역 시스템의 품질(SMT 대비 NMT)이 합성 훈련 데이터를 사용할 때 APE 성능 향상에 미치는 영향은 어느 정도인가?
  • RQ5다양한 기계 번역 철학에서 유도된 합성 데이터가 여러 도메인에 걸쳐 보정 패턴의 일반화를 가능하게 하는가?

주요 결과

  • eSCAPE 합성 데이터 전용으로 훈련된 APE 모델은 영어-독어 및 영어-이탈리아어 모두에서 Do-nothing 기준 대비 통계적으로 유의미한 BLEU 향상을 달성했으며, 문장 기반 기계 번역(SMT) 출력물 기반으로 훈련했을 경우 각각 +1.39 및 +1.72 BLEU 포인트의 향상을 기록했다.
  • 신경 기계 번역(NMT) 출력물 기반으로 훈련한 경우에도 APE 모델은 각각 +1.04 BLEU 포인트(영어-독어) 및 +1.14 BLEU 포인트(영어-이탈리아어)의 유의미한 향상을 기록했으며, 이는 더 높은 품질의 MT 기반 모델이라도 효과적인 학습이 가능함을 보여준다.
  • 영어-이탈리아어 언어 조합에서 가장 높은 성과 향상이 관찰되었으며, 이는 코퍼스가 저자원 또는 더 복잡한 형태소적 특성을 지닌 언어 조합에 특히 효과적임을 시사한다.
  • 결과는 MT 출력물과 '후편집'이 인간에 의해 생성되지 않았더라도 합성 데이터가 효과적으로 APE 모델을 훈련시킬 수 있음을 확인한다. 이는 MT 오류와 보정 패턴 간의 상관관계가 학습에 충분함을 의미한다.
  • eSCAPE로 훈련된 APE 모델는 이전에 오류 패턴이 희박해 일반화가 어려웠던 혼합 도메인 및 일반 도메인 평가 환경에서도 기준 모델을 초월하는 성능을 보였으며, 이는 일반화 능력이 있음을 입증한다.
  • 비용이 많이 들는 인간에 의한 후편집 데이터 접근 없이도 최신 기술 수준의 APE 성능을 달성할 수 있으며, 이는 저자원 및 도메인 적응형 APE 응용 분야에 대해 확장 가능한 솔루션을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.