Skip to main content
QUICK REVIEW

[논문 리뷰] Breaking the Data Barrier: Towards Robust Speech Translation via Adversarial Stability Training

Qiao Cheng, Meiyuan Fang|arXiv (Cornell University)|2019. 11. 02.
Natural Language Processing Techniques참고 문헌 27인용 수 9
한 줄 요약

이 논문은 음성 인식 오류에 대한 신경 기계 번역의 강건성을 향상시키기 위해 적대적 안정성 훈련을 제안한다. 인코더에 적대적 학습을 적용하고 디코더에 데이터 증강을 동시에 적용함으로써, 청소된 입력과 노이즈가 있는 ASR 출력 간의 성능 격차를 줄이며, 노이즈가 있는 입력에서 최대 2.83 BLEU 향상률을 달성하면서도 청소된 텍스트에서는 기준 수준의 성능을 유지한다.

ABSTRACT

In a pipeline speech translation system, automatic speech recognition (ASR) system will transmit errors in recognition to the downstream machine translation (MT) system. A standard machine translation system is usually trained on parallel corpus composed of clean text and will perform poorly on text with recognition noise, a gap well known in speech translation community. In this paper, we propose a training architecture which aims at making a neural machine translation model more robust against speech recognition errors. Our approach addresses the encoder and the decoder simultaneously using adversarial learning and data augmentation, respectively. Experimental results on IWSLT2018 speech translation task show that our approach can bridge the gap between the ASR output and the MT input, outperforms the baseline by up to 2.83 BLEU on noisy ASR output, while maintaining close performance on clean text.

연구 동기 및 목표

  • 자동 음성 인식 시스템에서 유래한 노이즈가 있는 텍스트를 입력으로 받을 때 신경 기계 번역 모델의 성능 저하 문제를 해결하기 위해.
  • 엔드 투 엔드 음성 번역 파이프라인에서 청소된 텍스트 입력과 노이즈가 있는 ASR 출력 간의 격차를 줄이기 위해.
  • 청소된 고품질 입력 데이터에서 성능를 희생시키지 않고 모델의 강건성을 향상시키기 위해.
  • 동시에 인코더의 내성 강화와 디코더의 노이즈 입력에 대한 적응성 향상을 도모하는 훈련 프레임워크를 개발하기 위해.

제안 방법

  • ASR 오류에서 흔히 발생하는 변형에 대비해 강건성을 향상시키기 위해 인코더에 적대적 훈련을 적용한다.
  • 다양한 노이즈 입력 패턴을 시뮬레이션하기 위해 디코더 훈련 중에 데이터 증강을 적용한다.
  • 적대적 안정성 목표를 사용하여 인코더와 디코더를 공동 최적화한다.
  • 적대적 및 증강 데이터와 함께 표준 훈련 신호를 유지함으로써 청소된 텍스트에서의 모델 성능를 보존한다.
  • 모델 최적화 중에 기울기 기반 적대적 예제를 활용하여 실제 ASR 오류를 시뮬레이션한다.

실험 결과

연구 질문

  • RQ1적대적 훈련이 자동 음성 인식에서 유래한 노이즈가 있는 입력에 대해 신경 기계 번역 모델의 강건성을 향상시킬 수 있는가?
  • RQ2인코더의 적대적 훈련과 디코더의 데이터 증강을 함께 적용할 경우, 노이즈가 있는 ASR 출력에서의 성능에 어떤 영향을 미치는가?
  • RQ3강건성을 향상시키는 동안 모델이 청소된 텍스트에서 성능를 유지할 수 있는 정도는 어느 정도인가?
  • RQ4제안된 방법이 청소된 입력과 노이즈가 있는 음성 번역 입력 간의 성능 격차를 효과적으로 해소하는가?

주요 결과

  • 제안된 방법은 기준 모델 대비 노이즈가 있는 ASR 출력에서 번역 성능을 최대 2.83 BLEU 포인트 향상시킨다.
  • 청소된 텍스트에서 기준 수준에 가까운 성능를 유지함으로써 고품질 입력에서의 성능 저하가 없음을 나타낸다.
  • 적대적 훈련과 데이터 증강을 함께 사용함으로써 청소된 입력과 노이즈가 있는 입력 간의 성능 격차를 효과적으로 줄일 수 있다.
  • 다양한 수준의 노이즈가 있는 ASR 출력에서 일관된 성능 향상을 보이며, 다양한 인식 오류에 대한 강건성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.