[논문 리뷰] Robust Neural Machine Translation for Clean and Noisy Speech Transcripts
이 논문은 같은 소스의 청소각 및 음성인식(ASR)으로 생성된 노이즈 있는 버전을 모두 포함한 혼합 병렬 데이터를 훈련시켜, 정제된 텍스트와 노이즈 있는 음성 인식 결과를 모두 처리할 수 있도록 개선된 통합 신경 기계 번역(NMT) 모델을 제안한다. 주요 결과로는, 두 유형의 데이터를 함께 학습함으로써 각 입력 유형에서 뛰어난 성능을 달성하며, 순수하게 정제된 데이터나 순수하게 노이즈 있는 데이터로만 훈련된 모델보다 우수한 성능을 보인다.
Neural machine translation models have shown to achieve high quality when trained and fed with well structured and punctuated input texts. Unfortunately, the latter condition is not met in spoken language translation, where the input is generated by an automatic speech recognition (ASR) system. In this paper, we study how to adapt a strong NMT system to make it robust to typical ASR errors. As in our application scenarios transcripts might be post-edited by human experts, we propose adaptation strategies to train a single system that can translate either clean or noisy input with no supervision on the input type. Our experimental results on a public speech translation data set show that adapting a model on a significant amount of parallel data including ASR transcripts is beneficial with test data of the same type, but produces a small degradation when translating clean text. Adapting on both clean and noisy variants of the same data leads to the best results on both input types.
연구 동기 및 목표
- 청소된 잘 문단이 있는 텍스트에 비해 노이즈 있는 ASR로 생성된 음성 인식 텍스트를 번역할 때 NMT 성능 저하 문제를 해결한다.
- 추론 시 입력 유형에 대한 감독 없이도 정제된 텍스트와 노이즈 있는 입력 모두에서 잘 작동하는 통합 NMT 시스템을 개발한다.
- 동일한 병렬 데이터의 정제된 버전과 노이즈 있는 버전을 함께 훈련시키는 것이 강건성과 일반화 능력을 향상시키는지 조사한다.
- 실제 음성 번역 환경에서 고품질 정제된 텍스트 번역 성능와 ASR 오류에 대한 강건성 간의 성능 트레이드오프를 균형 잡는다.
제안 방법
- 정제된 기준 텍스트와 해당되는 ASR로 생성된(노이즈 있는) 전사본을 포함한 혼합 병렬 코퍼스를 기반으로 단일 NMT 모델을 훈련시킨다.
- 동일한 소스 측 병렬 데이터를 두 가지 형태로 사용한다: 정제된 형태와 노이즈 있는 형태로, 실제 입력의 다양성을 시뮬레이션한다.
- 모델 아키텍처와 파라미터를 두 입력 유형 간에 공유하면서 표준 NMT 훈련 절차를 적용한다.
- 훈련 데이터에 후속 편집된 전사본을 활용하여 실제 인간-중개자 방식의 음성 번역 파이프라인을 반영한다.
- 정제된 입력과 노이즈 있는 입력으로 나누어진 별도의 테스트 세트에서 모델 성능을 평가하여 강건성과 일반화 능력을 평가한다.
- 세 가지 설정에서 모델 성능를 비교한다: 오직 정제된 데이터로만 훈련, 오직 노이즈 있는 데이터로만 훈련, 두 데이터를 함께 훈련.
실험 결과
연구 질문
- RQ1입력 유형에 대한 명시적 감독 없이도 단일 NMT 모델이 정제된 텍스트와 노이즈 있는 음성 전사본을 효과적으로 번역할 수 있는가?
- RQ2동일한 데이터의 정제된 버전과 노이즈 있는 버전을 함께 훈련시키면 각 입력 유형에서의 번역 품질에 어떤 영향을 미치는가?
- RQ3노이즈 있는 ASR 전사본으로 훈련하면 정제된 테스트 데이터에서 성능 저하가 발생하는가? 그리고 이를 완화할 수 있는가?
- RQ4훈련 데이터에 후속 편집된 ASR 전사본을 포함시키는 것이 전체 모델의 강건성에 어떤 영향을 미치는가?
주요 결과
- ASR로 생성된(노이즈 있는) 전사본을 포함한 상당량의 병렬 데이터로 훈련하면, 노이즈 있는 테스트 데이터에서의 번역 성능이 향상된다.
- 오직 정제된 데이터로만 훈련된 모델은 정제된 입력에서는 높은 성능를 보이지만, 노이즈 있는 입력에서 테스트할 경우 성능 저하가 발생한다.
- 정제된 데이터와 노이즈 있는 데이터의 두 버전을 함께 훈련시키면, 두 입력 유형 모두에서 가장 우수한 성능을 달성한다.
- 혼합 데이터로 적응된 모델는 정제된 텍스트에서 강력한 성능를 유지하면서 동시에 ASR 오류에 대한 강건성이 크게 향상된다.
- 추론 시 입력 유형 분류가 필요 없이도 입력의 다양성을 효과적으로 처리할 수 있다.
- 결과적으로, 훈련 데이터에 노이즈 있는 전사본을 포함시키는 것이 실생활 음성 번역 응용에 유리함을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.