QUICK REVIEW

[논문 리뷰] Listen and Translate: A Proof of Concept for End-to-End Speech-to-Text Translation

Alexandre Bérard, Olivier Pietquin|arXiv (Cornell University)|2016. 12. 06.

Natural Language Processing Techniques참고 문헌 13인용 수 208

한 줄 요약

본 논문은 주의 기반 인코더-디코더 네트워크를 기반으로 한 엔드 투 엔드 음성-문자 번역 시스템을 제시하며, 음성 번역과 텍스트 번역을 비교하고 소규모 합성 프랑스어–영어 말뭉치로 평가한다.

ABSTRACT

This paper proposes a first attempt to build an end-to-end speech-to-text translation system, which does not use source language transcription during learning or decoding. We propose a model for direct speech-to-text translation, which gives promising results on a small French-English synthetic corpus. Relaxing the need for source language transcription would drastically change the data collection methodology in speech translation, especially in under-resourced scenarios. For instance, in the former project DARPA TRANSTAC (speech translation from spoken Arabic dialects), a large effort was devoted to the collection of speech transcripts (and a prerequisite to obtain transcripts was often a detailed transcription guide for languages with little standardized spelling). Now, if end-to-end approaches for speech-to-text translation are successful, one might consider collecting data by asking bilingual speakers to directly utter speech in the source language from target language text utterances. Such an approach has the advantage to be applicable to any unwritten (source) language.

연구 동기 및 목표

소스 언어 전사본에 의존하지 않는 엔드투엔드 음성-문자 번역 연구를 촉진한다.
주의 메커니즘을 사용하는 텍스트 번역과 음성 번역에 대해 두 가지 엔드-투-엔드 모델을 제안하고 비교한다.
작고 전문화된 코퍼스에서의 학습이 엔드-투-엔드 번역에 가능성 있는지 평가한다.
합성 음성 데이터를 사용하여 화자 간 변이성에 대한 견고성 가능성을 입증한다.

제안 방법

텍스트 번역과 음성 번역 모두에 주의(attention)-기반 인코더-디코더 신경망을 사용한다.
대향 LSTM 인코더와 주의(attention)를 갖춘 2-layer LSTM 디코더를 사용하여 대상 시퀀스를 생성한다.
텍스트 입력의 경우 Bahdanau 스타일 주의 메커니즘을 적용하고, 음성 입력의 경우 이전 주의의 기억을 컨볼루션 필터를 통해 기억하는 컨볼루션 주의 모델을 사용한다.
Adam 최적화로 학습하고 인코더와 디코더 계층 사이에 드롭아웃을 적용한다.
입력 시퀀스 길이를 줄이기 위해 음성 모델에 계층적 인코더를 구현하고 음성 입력에 대해 40 MFCC 특징 표현을 사용한다.
Greedy decoding과 빔 탐색 decoding을 평가하고 전통적인 SMT baseline과 비교한다.

실험 결과

연구 질문

RQ1소스 언어 전사본에 의존하지 않는 엔드투엔드 음성-문자 번역 모델을 훈련시킬 수 있는가?
RQ2작고 합성된 프랑스어–영어 코퍼스에서 엔드투엔드 음성 번역 성능은 텍스트 번역 및 파이프라인 SMT baseline과 어떻게 비교되는가?
RQ3새로운 화자에 대해 명시적 화자 적응 없이도 엔드투엔드 접근법이 일반화되는가?
RQ4디코딩 전략(그리디 vs 언어 모델을 포함/비포함)의 번역 품질에 미치는 영향은 무엇인가?

주요 결과

엔드투엔드 음성 번역은 소형 합성 프랑스어–영어 코퍼스에서도 다양한 디코딩 설정에서 BLEU 점수가 기본 SMT 시스템과 경쟁력을 보인다.
언어 모델이 포함된 다섯 모델 앙상블은 dev 및 test 세트에서 SMT baseline에 근접한 BLEU 점수를 달성한다.
음성 번역 모델은 학습에 포함되지 않은 새로운 화자에 대해 비교적 강건한 편이며, 화자 적응 없이 일반화 가능성을 시사한다.
학습 시간은 짧다(텍스트 모델은 약 2시간, 음성 모델은 GTX 1070에서 약 8시간), 빠른 실험 가능성을 보여준다.
본 연구는 엔드-투-엔드 모델이 주의 정렬(attention alignment) 그림으로 시각화된 대로 정렬과 번역을 함께 학습할 수 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.