QUICK REVIEW

[논문 리뷰] Sequence-to-Sequence Models Can Directly Translate Foreign Speech

Ron J. Weiss, Jan Chorowski|arXiv (Cornell University)|2017. 03. 24.

Natural Language Processing Techniques참고 문헌 32인용 수 54

한 줄 요약

엔드-투-엔드 시퀀스-투-시퀀스 모델이 소스 언어 기록 없이 한 언어의 음성을 바로 다른 언어의 텍스트로 번역하며, 계단식 ASR+MT 시스템보다 성능이 우수합니다; ASR로 다중 태스크 학습은 성능을 더욱 향상시킵니다.

ABSTRACT

We present a recurrent encoder-decoder deep neural network architecture that directly translates speech in one language into text in another. The model does not explicitly transcribe the speech into text in the source language, nor does it require supervision from the ground truth source language transcription during training. We apply a slightly modified sequence-to-sequence with attention architecture that has previously been used for speech recognition and show that it can be repurposed for this more complex task, illustrating the power of attention-based models. A single model trained end-to-end obtains state-of-the-art performance on the Fisher Callhome Spanish-English speech translation task, outperforming a cascade of independently trained sequence-to-sequence speech recognition and machine translation models by 1.8 BLEU points on the Fisher test set. In addition, we find that making use of the training data in both languages by multi-task training sequence-to-sequence speech translation and recognition models with a shared encoder network can improve performance by a further 1.4 BLEU points.

연구 동기 및 목표

합성 파이프라인에서 발생하는 오류 누적(ASR+MT)을 피하기 위해 엔드-투-엔드 음성 번역을 고무한다.
소스 언어 기록 없이 한 언어의 음성을 다른 언어의 텍스트로 번역할 수 있는 단일 주의(attention) 기반 시퀀스-투-시퀀스 모델을 입증한다.
ASR/MT 작업과 인코더를 공유하는 다중 작업 학습이 번역 품질에 미치는 영향을 탐구한다.
엔드-투-엔드 ST가 Fisher Callhome 스페인어–영어 번역 작업에서 최신 BLEU를 달성할 수 있음을 보인다.

제안 방법

입력 음성 프레임을 출력 텍스트 토큰에 맞추기 위해 인코더–디코더 아키텍처와 어텐션 메커니즘을 갖춘 주의 기반 시퀀스-투-시퀀스 모델을 사용한다.
로깅 멜 필터뱅크 특징을 합성곱 신경망(CNN)과 양방향 LSTM 인코더로 처리하여 h1..L 표현을 생성한다.
주어진 어텐션으로 도출된 컨텍스트 벡터 c_k에 의해 안내되는 다층 LSTM 디코더로 y_k를 생성한다.
다중 작업 설정에서 공유된 인코더로 음성 번역과 ASR에 대해 엔드-투-엔드로 학습하여 ST 성능을 향상시킨다.
백엔드 학습은 테이처 포스팅, 적응적 최적화(Adam), 그래디언트 노이즈, 외부 언어 모델 없이 빔 서치 디코딩을 사용한다.

실험 결과

연구 질문

RQ1훈련 중에 소스 언어 기록 없이 끝-to-끝 seq2seq 모델이 외국어 음성을 직접 목적 언어 텍스트로 번역할 수 있는가?
RQ2음성 번역과 인식 작업 간 인코더를 공유하는 것이 번역 정확도를 향상시키는가?
RQ3Fisher Callhome 스페인어–영어 데이터에서 엔드-투-엔드 ST와 ASR-다음 MT 계단식의 비교는 어떠한가?
RQ4디코더 깊이와 다중 작업 학습이 ST 성능에 미치는 영향은 무엇인가?
RQ5다중 작업 ST/ASR에서 학습 전략(일대다 대 다대일)의 효과는 무엇인가?

주요 결과

모델	Fisher dev	Fisher dev2	Fisher test	Callhome devtest	Callhome evltest
End-to-end ST 3	46.5	47.3	47.3	16.4	16.6
Multi-task ST / ASR 3	48.3	49.1	48.7	16.8	17.4
ASR → NMT cascade 3	45.1	46.1	45.5	16.2	16.6
Post et al. 19	–	35.4	–	–	11.7
Kumar et al. 21	–	40.1	40.4	–	–

엔드-투-엔드 음성 번역은 Fisher/테스트에서 ASR→NMT 계단식보다 약 1.8 BLEU 포인트 우수하다.
공유 인코더를 가진 다중 작업 ST/ASR은 Fisher 데이터셋 전체에서 추가로 약 1.4 BLEU 포인트 개선을 보여준다.
디코더 깊이를 최대 네 계층까지 늘리면 Fisher/dev에서 ST 성능(BLEU)이 향상되며, 그 이후에는 수익이 감소한다.
다중 작업 설정에서 모든 인코더 계층을 공유하는 것이 최상의 ST 성능을 낳으며, 인코더가 중간언어 표현을 학습한다는 것을 시사한다.
엔드-투-엔드 ST 모델은 Fisher dev/test에서 46.5–47.3 BLEU, Callhome devtest/evaltest에서 16.4–16.6 BLEU를 달성하여 Fisher에서 기존의 계단식 접근법을 능가하는 반면, 데이터 규모 때문에 Callhome에서 단어 수준 MT 기준선보다 낮은 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.