Skip to main content
QUICK REVIEW

[论文解读] Augmenting Librispeech with French Translations: A Multimodal Corpus for Direct Speech Translation Evaluation

Ali Can Kocabiyikoglu, Laurent Besacier|arXiv (Cornell University)|Feb 9, 2018
Natural Language Processing Techniques参考文献 10被引用 73
一句话总结

本文通过将 LibriSpeech 的英语音频与法语文本对齐,扩展了 LibriSpeech,创建了一个236小时的双语语音-文本语料库,以直接端到端的语音翻译评估,并提供人工验证的质量评估。

ABSTRACT

Recent works in spoken language translation (SLT) have attempted to build end-to-end speech-to-text translation without using source language transcription during learning or decoding. However, while large quantities of parallel texts (such as Europarl, OpenSubtitles) are available for training machine translation systems, there are no large (100h) and open source parallel corpora that include speech in a source language aligned to text in a target language. This paper tries to fill this gap by augmenting an existing (monolingual) corpus: LibriSpeech. This corpus, used for automatic speech recognition, is derived from read audiobooks from the LibriVox project, and has been carefully segmented and aligned. After gathering French e-books corresponding to the English audio-books from LibriSpeech, we align speech segments at the sentence level with their respective translations and obtain 236h of usable parallel data. This paper presents the details of the processing as well as a manual evaluation conducted on a small subset of the corpus. This evaluation shows that the automatic alignments scores are reasonably correlated with the human judgments of the bilingual alignment quality. We believe that this corpus (which is made available online) is useful for replicable experiments in direct speech translation or more general spoken language translation experiments.

研究动机与目标

  • 用另一种语言的源语音和目标文本填补大规模(>100 小时)开源平行语料库的空缺。
  • 利用 LibriSpeech 的英语音频和法语电子书翻译来创建句子对齐的双语数据。
  • 用人工判断评估对齐质量,并与自动对齐分数相关性分析。
  • 提供一个公开数据集,以实现可重复的端到端语音翻译实验。

提出的方法

  • 通过标题翻译和公领域来源收集与 LibriSpeech 英语书籍相对应的法语电子书。
  • 提取法语章节以匹配 LibriSpeech 英语章节,形成并行章节(来自 247 本书的 1423 章)。
  • 在章节内使用 hunAlign 将英语-法语句子对齐,使用增强字典(128,000 条目)和预处理(分词、词干提取、反向词干提取)。
  • 使用 mweralign 和基于 Gentle Kaldi 的强制对齐将 LibriSpeech 音频重新对齐到英语句子,以生成带有法语翻译的语音。
  • 为每个句子提供两个法语翻译(基于自动对齐的翻译和机器翻译),并发布用于语音翻译实验的数据划分。

实验结果

研究问题

  • RQ1是否可以通过在句子层面将 LibriSpeech 音频与法语翻译对齐来创建大规模、开源的语料库?
  • RQ2自动对齐分数(hunAligned)与对双语对齐质量的人类判断之间的相关性有多强?
  • RQ3在这个增强的 LibriSpeech 语料库上训练端到端直接语音翻译模型是否可行?
  • RQ4所得的多模态语料库在直接语音翻译评估中的质量和实用性如何?

主要发现

章节书籍时长(h)总段落数
1408247~236h131395
  • 作者生成了约 236 小时的英文语音,与法语翻译对齐,覆盖 1408 章,来自 247 本书。
  • 人工评估显示,所选章节的语音对齐平均分为 2.89/3,双语对齐分为 3.84/5,标注者一致性的 Cohen's kappa 为 0.76。
  • 人工判断与 HunAlign 分数之间的相关性为 0.41,表明自动分数在合理程度上反映了人工质量判断。
  • 自动跨语言文本相似性方法与人工判断的相关性也接近,支持使用自动分数筛选高质量对齐。
  • 该数据集公开可用,可进行端到端语音翻译实验,相关结果中 BLEU 约为 15。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。