Skip to main content
QUICK REVIEW

[論文レビュー] fairseq S2T: Fast Speech-to-Text Modeling with fairseq

Changhan Wang, Yun Tang|arXiv (Cornell University)|Oct 11, 2020
Natural Language Processing Techniques参考文献 42被引用数 92
ひとこと要約

本論文は fairseq S2T を紹介します。end-to-end の speech-to-text タスクの拡張であり、スケーラブルなデータ処理、多様なモデルサポート (RNN/Transformer/Conformer)、オンライン/オフライン推論、そして MT/LM との統合によるマルチタスク学習を特徴とします。

ABSTRACT

We introduce fairseq S2T, a fairseq extension for speech-to-text (S2T) modeling tasks such as end-to-end speech recognition and speech-to-text translation. It follows fairseq's careful design for scalability and extensibility. We provide end-to-end workflows from data pre-processing, model training to offline (online) inference. We implement state-of-the-art RNN-based, Transformer-based as well as Conformer-based models and open-source detailed training recipes. Fairseq's machine translation models and language models can be seamlessly integrated into S2T workflows for multi-task learning or transfer learning. Fairseq S2T documentation and examples are available at https://github.com/pytorch/fairseq/tree/master/examples/speech_to_text.

研究の動機と目的

  • 大規模なラベルなしデータと横断タスク監督(MT/LM)を活用して、ASRとSTのための統合型 S2S モデリングを推進する。
  • データ前処理からトレーニングと推論までのエンドツーエンドのワークフローを、スケーラブルで拡張性のあるフレームワークで提供する。
  • 最先端モデルサポート(RNN、Transformer、Conformer)と再現性のある詳密な学習レシピを提供する。
  • fairseq MT モデルと LM の S2T ワークフローへの統合を可能にし、マルチタスク学習と転移学習を促進する。

提案手法

  • ASRとSTを含むS2Tタスクを追加することで fairseq を拡張する。
  • ASR のためのCTCオプションを含むRNN、Transformer、Conformerアーキテクチャをサポート。
  • オンライン同時STポリシーを提供(単調注意のバリアント、wait-k、単調な無限ルックバック、単調多頭注意)。
  • PyKaldi または torchaudio を用いて Kaldi 互換特徴量を抽出し、データ前処理を自動化。事前計算と ZIP パッケージングを I/O 効率のためにオプションで提供。
  • テキストデータのトークン化オプション(Moses、SentencePiece、subword-nmt、byte-level BPE、bytes)と YAML ベースのデータ設定を提供。
  • 評価指標(WER、BLEU、chrF)と同時ST指標(AL、DAL)を simuleval 経由で統合、さらに VizSeq の可視化と TensorBoard のモニタリング。
  • 混合精度、マルチGPU、マルチマシンを活用した PyTorch ベースのスケーラブルなトレーニングを活用し、準備済みのトレーニングレシピを提供。
  • S2T ワークフローで fairseq MT モデルと LM のシームレスな再利用を可能にして、マルチタスクまたは転移学習を促進。

実験結果

リサーチクエスチョン

  • RQ1異なるバックボーンモデルを用いた場合、end-to-end の ASR および ST ベンチマーク(例:LibriSpeech、MuST-C、CoVoST 2)で fairseq S2T はどのように性能を発揮するか?
  • RQ2多言語トレーニングと跨タスク監督は、バイリンガルまたは単一タスクの設定と比べて S2T の性能を改善できるか?
  • RQ3自己教師あり特徴(SSL、例えば wav2vec)が多言語 S2T の性能と転移可能性に与える影響は?
  • RQ4オンライン同時 ST モデルは言語方向ごとに遅延(AL)と翻訳品質をどのようにトレードオフするか?
  • RQ5可用性、再現性、MT/LM モデルとの統合という点で、他のツールキットと fairseq S2T はどのように比較されるか?

主な発見

  • Fairseq S2T は、最先端の RNN、Transformer、Conformer ベースのモデルを用いたエンドツーエンドの S2T ワークフローを提供します。
  • Online simultaneous ST models with policies like wait-k and monotonic attention demonstrate competitive latency-accuracy trade-offs on MuST-C.
  • Multilingual S2T models trained on multiple languages can outperform bilingual models on several directions, showing strong transferability.
  • Transformer-based S2T models outperform RNN-based ones on CoVoST 2 across En–X and X–En directions, with gains from self-supervised features in low-resource and multilingual settings.
  • CW-Lg (Conformer-based wav2vec) は LibriSpeech WER で競争力があり、fairseq S2T フレームワーク内で強力な ASR パフォーマンスを示します。
  • fairseq S2T は MT および LM コンポーネントを統合し、マルチタスク学習と転移学習を可能にして、全体の S2T パフォーマンスを向上させます。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。