QUICK REVIEW

[論文レビュー] fairseq S2T: Fast Speech-to-Text Modeling with fairseq

Changhan Wang, Yun Tang|arXiv (Cornell University)|Oct 11, 2020

Natural Language Processing Techniques参考文献 42被引用数 92

ひとこと要約

本論文は fairseq S2T を紹介します。end-to-end の speech-to-text タスクの拡張であり、スケーラブルなデータ処理、多様なモデルサポート (RNN/Transformer/Conformer)、オンライン/オフライン推論、そして MT/LM との統合によるマルチタスク学習を特徴とします。

ABSTRACT

We introduce fairseq S2T, a fairseq extension for speech-to-text (S2T) modeling tasks such as end-to-end speech recognition and speech-to-text translation. It follows fairseq's careful design for scalability and extensibility. We provide end-to-end workflows from data pre-processing, model training to offline (online) inference. We implement state-of-the-art RNN-based, Transformer-based as well as Conformer-based models and open-source detailed training recipes. Fairseq's machine translation models and language models can be seamlessly integrated into S2T workflows for multi-task learning or transfer learning. Fairseq S2T documentation and examples are available at https://github.com/pytorch/fairseq/tree/master/examples/speech_to_text.

研究の動機と目的

大規模なラベルなしデータと横断タスク監督（MT/LM）を活用して、ASRとSTのための統合型 S2S モデリングを推進する。
データ前処理からトレーニングと推論までのエンドツーエンドのワークフローを、スケーラブルで拡張性のあるフレームワークで提供する。
最先端モデルサポート（RNN、Transformer、Conformer）と再現性のある詳密な学習レシピを提供する。
fairseq MT モデルと LM の S2T ワークフローへの統合を可能にし、マルチタスク学習と転移学習を促進する。

提案手法

ASRとSTを含むS2Tタスクを追加することで fairseq を拡張する。
ASR のためのCTCオプションを含むRNN、Transformer、Conformerアーキテクチャをサポート。
オンライン同時STポリシーを提供（単調注意のバリアント、wait-k、単調な無限ルックバック、単調多頭注意）。
PyKaldi または torchaudio を用いて Kaldi 互換特徴量を抽出し、データ前処理を自動化。事前計算と ZIP パッケージングを I/O 効率のためにオプションで提供。
テキストデータのトークン化オプション（Moses、SentencePiece、subword-nmt、byte-level BPE、bytes）と YAML ベースのデータ設定を提供。
評価指標（WER、BLEU、chrF）と同時ST指標（AL、DAL）を simuleval 経由で統合、さらに VizSeq の可視化と TensorBoard のモニタリング。
混合精度、マルチGPU、マルチマシンを活用した PyTorch ベースのスケーラブルなトレーニングを活用し、準備済みのトレーニングレシピを提供。
S2T ワークフローで fairseq MT モデルと LM のシームレスな再利用を可能にして、マルチタスクまたは転移学習を促進。

実験結果

リサーチクエスチョン

RQ1異なるバックボーンモデルを用いた場合、end-to-end の ASR および ST ベンチマーク（例：LibriSpeech、MuST-C、CoVoST 2）で fairseq S2T はどのように性能を発揮するか？
RQ2多言語トレーニングと跨タスク監督は、バイリンガルまたは単一タスクの設定と比べて S2T の性能を改善できるか？
RQ3自己教師あり特徴（SSL、例えば wav2vec）が多言語 S2T の性能と転移可能性に与える影響は？
RQ4オンライン同時 ST モデルは言語方向ごとに遅延（AL）と翻訳品質をどのようにトレードオフするか？
RQ5可用性、再現性、MT/LM モデルとの統合という点で、他のツールキットと fairseq S2T はどのように比較されるか？

主な発見

Fairseq S2T は、最先端の RNN、Transformer、Conformer ベースのモデルを用いたエンドツーエンドの S2T ワークフローを提供します。
Online simultaneous ST models with policies like wait-k and monotonic attention demonstrate competitive latency-accuracy trade-offs on MuST-C.
Multilingual S2T models trained on multiple languages can outperform bilingual models on several directions, showing strong transferability.
Transformer-based S2T models outperform RNN-based ones on CoVoST 2 across En–X and X–En directions, with gains from self-supervised features in low-resource and multilingual settings.
CW-Lg (Conformer-based wav2vec) は LibriSpeech WER で競争力があり、fairseq S2T フレームワーク内で強力な ASR パフォーマンスを示します。
fairseq S2T は MT および LM コンポーネントを統合し、マルチタスク学習と転移学習を可能にして、全体の S2T パフォーマンスを向上させます。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。