QUICK REVIEW

[論文レビュー] Transformer-based Automatic Speech Recognition of Formal and Colloquial Czech in MALACH Project

Jan Lehečka, Josef Psutka|arXiv (Cornell University)|Jun 15, 2022

Speech Recognition and Synthesis参考文献 19被引用数 3

ひとこと要約

この論文は、Wav2Vec 2.0に基づくエンドツーエンドASRモデルが、明示的な音声的・語彙的対応付けを経ずに、口語的チェコ語発話から形式的な書記体の転写に直接変換できるかを調査している。モデルは、生の音声と形式的転写の微調整を通じて、口語的発話と形式的テキストの間のマッピングを学習し、従来のLVCSRシステムを上回る性能を発揮するとともに、複雑なルールベースの後処理や曖昧な口語的転写の必要性を排除する。

ABSTRACT

Czech is a very specific language due to its large differences between the formal and the colloquial form of speech. While the formal (written) form is used mainly in official documents, literature, and public speeches, the colloquial (spoken) form is used widely among people in casual speeches. This gap introduces serious problems for ASR systems, especially when training or evaluating ASR models on datasets containing a lot of colloquial speech, such as the MALACH project. In this paper, we are addressing this problem in the light of a new paradigm in end-to-end ASR systems -- recently introduced self-supervised audio Transformers. Specifically, we are investigating the influence of colloquial speech on the performance of Wav2Vec 2.0 models and their ability to transcribe colloquial speech directly into formal transcripts. We are presenting results with both formal and colloquial forms in the training transcripts, language models, and evaluation transcripts.

研究の動機と目的

形式的および口語的バリエーションが存在するチェコ語発話のASRシステムを訓練する課題に対処すること。これらは言語的に異なるため、標準モデルでは困難を伴う。
自己教師ありのWav2Vec 2.0モデルが、手動による音声的・語彙的対応付けを経ずに、口語的チェコ語発話を直接形式的書記体に変換できるかを評価すること。
形式的トランスクリプトと口語的トランスクリプトで訓練されたモデルの性能を比較し、言語モデルが認識精度に与える影響を評価すること。
エンドツーエンドのWav2Vec 2.0モデルが、口語的ASR出力のルールベースの後処理よりも一般化性能に優れているかを調査すること。
形式的トランスクリプトのみが、効果的な微調整に十分であることを示し、口語的トランスクリプトや手動ルール作成の必要性を排除するデータ収集の簡素化を実現すること。

提案手法

MALACHプロジェクトから得た生の音声と形式的書記体トランスクリプトを用いて、Wav2Vec 2.0モデルを微調整した。このプロジェクトには、形式的および口語的発話が含まれる。
訓練、言語モデル、評価の各段階で、形式的および口語的トランスクリプトを用いてモデルを訓練および評価し、耐性および一般化性能を評価した。
ビームサーチデコードを実装し、形式的チェコ語（LMformal）と口語的チェコ語（LMcolloq）の両方の言語モデルを用いた。
口語的モデル出力に対して、ルールベースの形式化後処理（FP）ステップを実装し、エンドツーエンド形式の転写と比較した。
CTCベースのデコードを用いてシーケンス変換を実現し、モデルが音声フレームと出力トークンの間のアライメントを学習できるようにした。
形式的および口語的テストセットの両方で、語誤り率（WER）および文字誤り率（CER）を用いて性能を評価した。

実験結果

リサーチクエスチョン

RQ1Wav2Vec 2.0モデルは、明示的なアライメントや発音モデルなしに、口語的チェコ語発話を直接形式的書記体に変換できるか？
RQ2訓練用トランスクリプトの選択（形式的対口語的）が、形式的および口語的テストセットにおけるモデルの性能に与える影響は何か？
RQ3生の音声と形式的トランスクリプトのエンドツーエンド訓練は、口語的モデル出力のルールベースの後処理よりも一般化性能に優れているか？
RQ4発話の変動が存在する状況下で、形式的対口語的言語モデルの使用が認識精度に与える影響は何か？
RQ5Wav2Vec 2.0モデルは、訓練中に見られなかった口語的語彙の形式的表記にどの程度一般化できるか？

主な発見

生の音声と形式的トランスクリプトで微調整したWav2Vec 2.0モデルは、形式的テストセットでWER 10.48%を達成し、最良のLVCSRシステム（WER 14.71%）を上回った。
口語的トランスクリプトで訓練したモデル（W2Vcolloq）は、口語的テストセットでWER 11.55%を達成し、LVCSRベースライン（14.71% WER）を著しく上回った。
W2Vformalモデルは、形式的テストセットでわずかに高い誤り率（11.52% WER）を示したが、ルールベースの形式化でカバーされない未学習の口語的形態を正しく転写できたことで、優れた一般化性能を示した。
ルールベースの形式化後処理（W2Vcolloq+FP）は、W2Vformalと同程度の誤り率を示したが、参照誤りの影響を受けて誤検出が多く発生し、耐性が低いことが示された。
W2Vformalモデルが、訓練中に見られなかった口語的語彙の形式的表記を正しく予測できたこと（参照誤りの影響を受けても）は、ルールベース手法よりも強い言語一般化能力を示している。
本研究は、形式的トランスクリプトのみが、効果的な微調整に十分であることを確認した。これにより、口語的トランスクリプトや手動ルール作成の必要性を排除し、明確で単純なデータ収集が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。