[論文レビュー] Augmenting Librispeech with French Translations: A Multimodal Corpus for Direct Speech Translation Evaluation
本論文は LibriSpeech をフランス語翻訳で拡張し、英語の LibriSpeech 音声とフランス語テキストを対応付けることで、直接のエンドツーエンド音声翻訳評価のための236時間のバイリンガル音声文脈コーパスを作成し、人間による品質評価を提供する。
Recent works in spoken language translation (SLT) have attempted to build end-to-end speech-to-text translation without using source language transcription during learning or decoding. However, while large quantities of parallel texts (such as Europarl, OpenSubtitles) are available for training machine translation systems, there are no large (100h) and open source parallel corpora that include speech in a source language aligned to text in a target language. This paper tries to fill this gap by augmenting an existing (monolingual) corpus: LibriSpeech. This corpus, used for automatic speech recognition, is derived from read audiobooks from the LibriVox project, and has been carefully segmented and aligned. After gathering French e-books corresponding to the English audio-books from LibriSpeech, we align speech segments at the sentence level with their respective translations and obtain 236h of usable parallel data. This paper presents the details of the processing as well as a manual evaluation conducted on a small subset of the corpus. This evaluation shows that the automatic alignments scores are reasonably correlated with the human judgments of the bilingual alignment quality. We believe that this corpus (which is made available online) is useful for replicable experiments in direct speech translation or more general spoken language translation experiments.
研究の動機と目的
- 別の言語の音声ソースとターゲットテキストを含む大規模な (>100h) オープンソース対訳コーパスのギャップを埋める。
- LibriSpeech の英語音声とフランス語の電子書籍翻訳を活用して、文レベルで整列したバイリンガルデータを作成する。
- 人間の評価によってアライメント品質を評価し、自動アライメントスコアと相関を取る。
- 再現可能なエンドツーエンドの音声翻訳実験を可能にする公開データセットを提供する。
提案手法
- LibriSpeech の英語書籍に対応するフランス語電子書籍を、タイトルの翻訳と公有領域ソースを通じて収集する。
- フランス語の章を抽出して英語の LibriSpeech の章と対応させ、並列章を形成する(247 冊から 1423 章)。
- 章内の英仏文を、拡張辞書(128,000 エントリ)と前処理(トークン化、ステミング、逆ステミング)を用いた HunAlign で整列する。
- mweralign と Gentle Kaldi ベースの強制アライメントを用いて LibriSpeech 音声を英語の文に再配置し、フランス語翻訳付きの音声を生成する。
- 1文につき2つのフランス語翻訳を提供(自動アライメントベースの翻訳と機械翻訳)し、音声翻訳実験用のデータ分割を公開する。
実験結果
リサーチクエスチョン
- RQ1LibriSpeech の音声を文レベルでフランス語翻訳と整列させることで、大規模でオープンソースのコーパスを作成できるか?
- RQ2自動アライメントスコア(hunAligned)は、バイリンガルアライメント品質に関する人間の判断とどの程度相関するか?
- RQ3この拡張された LibriSpeech コーパス上でエンドツーエンドの直接音声翻訳モデルを訓練することは可能か?
- RQ4直接音声翻訳評価のための結果として得られたマルチモーダルコーパスの品質と有用性はどの程度か?
主な発見
| 章 | 書籍 | 再生時間 (h) | 総セグメント |
|---|---|---|---|
| 1408 | 247 | ~236h | 131395 |
- 著者は247冊の本にわたり、1408章に及ぶフランス語翻訳と対になる約236時間の英語音声を作成した。
- 人間の評価では、選択された章の平均音声アライメントスコアが 2.89/3、バイリンガルアライメントスコアが 3.84/5、アノテーター間の一致度は Cohen's kappa が 0.76。
- 人間の判断と HunAlign スコアの相関は 0.41 で、自動スコアが人間の品質判断を合理的に反映していることを示唆する。
- 自動的な言語間テキスト類似性手法は人間の判断と同様の相関を示し、高品質なアライメントを選別するために自動スコアを用いることを支持する。
- このデータセットは公開されており、エンドツーエンドの音声翻訳実験を可能にする。関連結果で BLEU が約 15 と報告されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。