Skip to main content
QUICK REVIEW

[論文レビュー] Harnessing Indirect Training Data for End-to-End Automatic Speech Translation: Tricks of the Trade

Juan Pino, Liezl Puzon|arXiv (Cornell University)|Sep 14, 2019
Natural Language Processing Techniques被引用数 25
ひとこと要約

本稿では、音声認識(ASR)のトランスクリプトや機械翻訳(MT)の翻訳結果といった間接的訓練データを、データ拡張および事前学習を用いて活用することで、エンドツーエンドの自動音声翻訳(AST)モデルと強力なカスケードモデルとの間の性能格差を是正することを提案する。ASRトランスクリプトの翻訳とTTSによる合成音声の生成を組み合わせ、事前学習および微調整を実施することで、LibriSpeechではBLEU差を8.2から1.4に、MuST-Cでは6.7から3.7にまで縮小し、公開データセットで準SOTAの結果を達成した。

ABSTRACT

For automatic speech translation (AST), end-to-end approaches are outperformed by cascaded models that transcribe with automatic speech recognition (ASR), then translate with machine translation (MT). A major cause of the performance gap is that, while existing AST corpora are small, massive datasets exist for both the ASR and MT subsystems. In this work, we evaluate several data augmentation and pretraining approaches for AST, by comparing all on the same datasets. Simple data augmentation by translating ASR transcripts proves most effective on the English--French augmented LibriSpeech dataset, closing the performance gap from 8.2 to 1.4 BLEU, compared to a very strong cascade that could directly utilize copious ASR and MT data. The same end-to-end approach plus fine-tuning closes the gap on the English--Romanian MuST-C dataset from 6.7 to 3.7 BLEU. In addition to these results, we present practical recommendations for augmentation and pretraining approaches. Finally, we decrease the performance gap to 0.01 BLEU using a Transformer-based architecture.

研究の動機と目的

  • 大量のASRおよびMTデータセットを活用する強力なカスケードモデルと、エンドツーエンドのASTモデルとの間の性能格差を是正すること。
  • ASRトランスクリプトやMT翻訳といった間接的訓練データを用いた効果的なデータ拡張戦略の調査。
  • 音声エンコーダーの事前学習と、ドメイン外の合成データに対する微調整の影響の評価。
  • エンドツーエンドのASTに適した、新たなVGG Transformerの変種を含む複数のニューラルアーキテクチャのベンチマーク。
  • エンドツーエンドのASTにおける間接的データの活用に向けた実用的で再現可能な推奨事項の提供。

提案手法

  • 高品質なMTモデルを用いて、大規模なASRコーパスからのトランスクリプトを翻訳することで、ASTの訓練データを拡張する。
  • TTS合成を用いて、ソース側のMT並列データから合成音声を生成し、追加の訓練例を生成する。
  • エンドツーエンドのASTモデルの音声エンコーダーを、大規模なASRデータ上で事前学習した後、ASTタスクに微調整する。
  • 大量のドメイン外の合成データを用いる場合に、モデルをドメイン内ASTデータに適応させるために微調整を適用する。
  • 合成データの品質、多様性、耐性を評価するために、複数のTTSエンジンとスプーカー設定を用いる。
  • 公開されたASTデータセット上で、拡張されたBérardモデル、VGG-LSTM、VGG Transformerを含む複数のアーキテクチャをベンチマークする。

実験結果

リサーチクエスチョン

  • RQ1エンドツーエンドのASTにおけるデータ拡張手法として、ASRトランスクリプトの翻訳はどの程度有効か?
  • RQ2TTSで生成された合成音声はAST性能にどのような影響を及ぼすか?また、データ量、スプーカーの多様性、TTSの品質が結果に与える影響は?
  • RQ3ASRデータ上で音声エンコーダーを事前学習することで、エンドツーエンドのAST性能が向上するか?
  • RQ4ドメイン外の合成データによる性能低下を緩和するために、微調整はどの程度効果的か?
  • RQ5公開されたASTデータセットにおいて、データ拡張および事前学習と組み合わせた場合、どのモデルアーキテクチャが最も優れた性能を示すか?

主な発見

  • ASRトランスクリプトの翻訳のみで、英語–フランス語のLibriSpeechデータセットではエンドツーエンドモデルとカスケードモデルのBLEU差を8.2から1.4にまで縮小した。
  • 英語–ルーマニア語のMuST-Cデータセットでも、同じトランスクリプト翻訳拡張法により、BLEU差を6.7から3.7に縮小した。
  • 最大30万件のTTS生成発話の追加で性能向上が見られたが、100万件に増加させると性能が劣化した。これはドメインシフトの問題を示唆している。
  • 複数スプーカーでのTTS生成は単一スプーカー生成より+0.9 BLEUの性能向上を達成し、最良の単一スプーカー性能に並んだ。
  • TTS2エンジンはTTS1をわずかに上回り、ターゲット言語(フランス語)のテキストから音声を生成する方法が最も優れた結果(13.646 BLEU)をもたらした。これは、バックトランスレーションに類似した戦略の可能性を示唆している。
  • 完全なパイプライン最適化(拡張、事前学習、微調整、Transformerアーキテクチャ)により、LibriSpeechではBLEU差がわずか0.01にまで縮小された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。