Skip to main content
QUICK REVIEW

[논문 리뷰] Synthetic and Natural Noise Both Break Neural Machine Translation

Yonatan Belinkov, Yonatan Bisk|arXiv (Cornell University)|2017. 11. 06.
Natural Language Processing Techniques참고 문헌 42인용 수 399
한 줄 요약

논문은 최첨단 문자 기반 NMT 모델이 합성 및 자연 노이즈에 모두 취약하다는 것을 보여주고, 구조 불변 표현과 적대적 학습(노이즈에 강건한 charCNN)을 통해 강건성을 향상시키는 것을 제안합니다.

ABSTRACT

Character-based neural machine translation (NMT) models alleviate out-of-vocabulary issues, learn morphology, and move us closer to completely end-to-end translation systems. Unfortunately, they are also very brittle and easily falter when presented with noisy data. In this paper, we confront NMT models with synthetic and natural sources of noise. We find that state-of-the-art models fail to translate even moderately noisy texts that humans have no trouble comprehending. We explore two approaches to increase model robustness: structure-invariant word representations and robust training on noisy texts. We find that a model based on a character convolutional neural network is able to simultaneously learn representations robust to multiple kinds of noise.

연구 동기 및 목표

  • 합성 및 자연 노이즈가 최첨단 문자 기반 NMT 시스템에 어떤 영향을 미치는지 평가합니다.
  • 소음이 있는 입력에서 NMT의 강인성 전략을 조사합니다.
  • 구조 불변 표현과 노이즈에 대한 강건성을 위한 적대적 학습을 MT에 대해 평가합니다.
  • 여러 언어쌍과 노이즈 유형에서 성능을 비교합니다.

제안 방법

  • 문자 정보를 갖춘 세 가지 NMT 아키텍처를 평가합니다(char2char, BPE를 사용하는 Nematus, 그리고 charCNN을 통한 단어 표현).
  • 소스 문장에 자연 노이즈와 합성 노이즈를 생성하여 주입합니다(Swap, Middle Random, Fully Random, Keyboard Typo, 그리고 corpora에서의 자연 오류).
  • 정제 입력과 노이즈 입력에서의 BLEU로 강건성을 테스트하고 실패를 분석합니다.
  • 구조 불변의 단어 표현(meanChar)을 탐색하고 노이즈 데이터로 모델을 학습합니다(블랙박스 적대적 학습) 및 혼합 노이즈 앙상블.
  • 재현성을 위한 노이즈 생성 코드와 데이터를 배포합니다.

실험 결과

연구 질문

  • RQ1합성 노이즈와 자연 단어 수준/문자 수준 노 noise가 여러 언어에서 번역 품질에 어떤 영향을 미치는가?
  • RQ2구조 불변 표현이나 적대적 학습이 다양한 노이즈 유형에 대해 문자 기반 NMT 모델의 강건성을 향상시킬 수 있는가?
  • RQ3MT 강건성을 위한 합성 노이즈가 인간의 자연 오류를 얼마나 잘 반영하는가?
  • RQ4혼합 노이즈 학습이 단일 노이즈 학습보다 더 넓은 강건성을 제공하는가?

주요 결과

  • 모든 모델은 노이즈 텍스트(자연 노이즈 포함)에서 BLEU가 크게 하락하는 것을 보였다.
  • 노이즈에 강건한 학습이 적용된 CharCNN이 다른 방법들보다 여러 노이즈 유형을 더 잘 다루지만 자연 노이즈는 여전히 도전 과제로 남아 있다.
  • MeanChar 표현은 scrambling에 대해 강건하지만 다른 노이즈 유형에서 성능이 떨어지며 언어 간 일관된 강건성을 보이지 않는다.
  • 특정 노이즈 유형에 대해 학습하면 해당 노이즈에서의 테스트 성능이 향상되지만 노이즈 계통 전체에 보편적으로 강건하지는 않으며, 혼합 노이즈 학습(Rand+Key+Nat)이 평균 강건성이 가장 좋다.
  • 자연 노이즈는 종종 합성 노이즈가 완전히 포착하지 못하는 음향/음운 오류 및 생략에서 비롯되며, 이는 강건성의 차이를 설명한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.