Skip to main content
QUICK REVIEW

[논문 리뷰] Augmenting Librispeech with French Translations: A Multimodal Corpus for Direct Speech Translation Evaluation

Ali Can Kocabiyikoglu, Laurent Besacier|arXiv (Cornell University)|2018. 02. 09.
Natural Language Processing Techniques참고 문헌 10인용 수 73
한 줄 요약

본 논문은 LibriSpeech에 프랑스어 번역을 추가하기 위해 영어 LibriSpeech 오디오를 프랑스어 텍스트와 정렬하여 직접적인 엔드-투-엔드 음성 번역 평가를 위한 236시간의 이중언어 음성-텍스트 코퍼스를 생성하고 사람의 검증된 품질 평가를 제공한다.

ABSTRACT

Recent works in spoken language translation (SLT) have attempted to build end-to-end speech-to-text translation without using source language transcription during learning or decoding. However, while large quantities of parallel texts (such as Europarl, OpenSubtitles) are available for training machine translation systems, there are no large (100h) and open source parallel corpora that include speech in a source language aligned to text in a target language. This paper tries to fill this gap by augmenting an existing (monolingual) corpus: LibriSpeech. This corpus, used for automatic speech recognition, is derived from read audiobooks from the LibriVox project, and has been carefully segmented and aligned. After gathering French e-books corresponding to the English audio-books from LibriSpeech, we align speech segments at the sentence level with their respective translations and obtain 236h of usable parallel data. This paper presents the details of the processing as well as a manual evaluation conducted on a small subset of the corpus. This evaluation shows that the automatic alignments scores are reasonably correlated with the human judgments of the bilingual alignment quality. We believe that this corpus (which is made available online) is useful for replicable experiments in direct speech translation or more general spoken language translation experiments.

연구 동기 및 목표

  • 다른 언어의 원시 음성과 대상 텍스트를 포함한 대규모(>100h) 오픈 소스 병렬 말뭉치의 격차를 메운다.
  • LibriSpeech 영어 오디오와 프랑스어 e-북 번역을 활용하여 문장 정렬된 이중언어 데이터를 만든다.
  • 사람의 판단으로 정렬 품질을 평가하고 자동 정렬 점수와 상관관계를 검토한다.
  • 재현 가능한 엔드-투-엔드 음성 번역 실험을 가능하게 하는 공개 데이터셋을 제공한다.

제안 방법

  • 제목 번역 및 퍼블릭 도메인 소스에 따라 LibriSpeech 영어 도서에 해당하는 프랑스어 e-북을 수집한다.
  • 프랑스어 챕터를 추출하여 영어 LibriSpeech 챕터와 대응시키고 병렬 챕터를 형성한다(247권의 책에서 1423챕터).
  • 챕터 내 영어-프랑스어 문장을 확장된 사전(128,000 항목)과 전처리(토큰화, 형태소 분석, 역 형태소 분석)를 사용하여 hunAlign로 정렬한다.
  • 프랑스어 번역이 포함된 음성을 산출하기 위해 mweralign과 Gentle Kaldi 기반 강제 정렬을 사용하여 LibriSpeech 오디오를 영어 문장에 재정렬한다.
  • 문장당 두 가지 프랑스어 번역(자동 정렬 기반 번역 및 기계 번역)을 제공하고 음성 번역 실험용 데이터 분할을 공개한다.

실험 결과

연구 질문

  • RQ1문장 수준에서 LibriSpeech 오디오를 프랑스어 번역과 정렬하여 대규모의 오픈 소스 코퍼스를 생성할 수 있는가?
  • RQ2자동 정렬 점수(HunAligned)가 이중언어 정렬 품질에 대한 인간 판단과 얼마나 잘 상관되는가?
  • RQ3이 확장된 LibriSpeech 코퍼스로 엔드-투-엔드 직접 음성 번역 모델을 학습시키는 것이 가능한가?
  • RQ4생성된 다중 모달 코퍼스가 직접 음성 번역 평가에 있어 품질과 활용도는 어느 정도인가?

주요 결과

  • 저자들은 247권의 책에서 1408챕터에 걸쳐 프랑스어 번역과 정렬된 약 236시간의 영어 음성을 생성했다.
  • 선정된 챕터에 대해 인간 평가에서 평균 음성 정렬 점수는 2.89/3, 이중언어 정렬 점수는 3.84/5이며, 주석자 간 일치도 Cohen's kappa는 0.76이다.
  • 인간 판단과 HunAlign 점수 사이의 상관계수는 0.41로, 자동 점수가 인간의 품질 판단을 합리적으로 반영함을 시사한다.
  • 자동 교차 언어 텍스트 유사도 방법도 인간 판단과 유사한 상관관계를 보이며, 고품질 정렬을 필터링하는 데 자동 점수의 활용을 뒷받침한다.
  • 데이터셋은 공개되어 있으며 엔드-투-엔드 음성 번역 실험을 가능하게 하며, 관련 결과에서 BLEU 약 15가 보고된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.