QUICK REVIEW

[論文レビュー] Advanced Rich Transcription System for Estonian Speech

Tanel Alumäe, Ottokar Tilk|arXiv (Cornell University)|Jan 11, 2019

Speech Recognition and Synthesis参考文献 17被引用数 28

ひとこと要約

本論文は、標点復元と発話者識別を組み合わせた、エストニア語向けの高度でオープンソースの音声認識システムを提示する。ノイズプロファイルを非トランスクリプトデータから抽出した多条件学習により耐障害性を向上させ、文字ベースのRNN埋め込み生成器とFSTベースの音素-表記変換モデルを用いて未知語語彙（OOV）の対処を強化し、弱教師付き学習を用いて8.1%のWERを達成。広く放送される会話では93%の精度で66%の発話者再現率を達成した。

ABSTRACT

This paper describes the current TTÜ speech transcription system for Estonian speech. The system is designed to handle semi-spontaneous speech, such as broadcast conversations, lecture recordings and interviews recorded in diverse acoustic conditions. The system is based on the Kaldi toolkit. Multi-condition training using background noise profiles extracted automatically from untranscribed data is used to improve the robustness of the system. Out-of-vocabulary words are recovered using a phoneme n-gram based decoding subgraph and a FST-based phoneme-to-grapheme model. The system achieves a word error rate of 8.1% on a test set of broadcast conversations. The system also performs punctuation recovery and speaker identification. Speaker identification models are trained using a recently proposed weakly supervised training method.

研究の動機と目的

実際の音響環境下での半自発的会話に対応できる耐障害性の高いエンドツーエンド音声トランスクリプションシステムを、エストニア語用に開発すること。
屈曲語・合成語を特徴とする言語における言語モデルにおける未知語語彙（OOV）の対処を、文字ベースのRNN埋め込みとFSTベースの音素-表記変換による手法で改善すること。
パディング対応デコードを備えた変更された系列モデルを用いて、ASR出力における自動的標点復元を可能にすること。
セグメントレベルのアノテーションに代えて、発話者メタデータのみを用いる弱教師付き学習により、有名人の発話者識別モデルを訓練すること。
メディア監視および一般公開のWebサービス向けにスケーラブルで生産環境対応のシステムを構築すること。

提案手法

システムはKaldi ASRツールキットに基づき構築され、非トランスクリプトユーザー録音から抽出した背景ノイズプロファイルを用いた多条件学習により耐障害性を向上させている。
未知語語彙（OOV）の回復には、音素n-gramデコードサブグラフとFSTベースの音素-表記変換モデルが用いられている。
文字ベースのRNNがOOV語用に動的語彙埋め込みを生成し、10万語の語彙制限を超えるカバレッジを向上させている。
標点復元は、入力シーケンス全体を用いるが、最後の10語をパディングとして扱うことで、正確な予測に向けた前方文脈を保持する。
発話者識別モデルは、セグメントレベルのアノテーションではなく、1録音ごとの発話者メタデータのみを用いた弱教師付き学習法で訓練されている。
システムは、一般公開のWebトランスクリプションサービスおよびメディア監視ツール向けの無料でオープンソースのバックエンドとしてデプロイされている。

実験結果

リサーチクエスチョン

RQ1エストニア語のような低リソース言語向けASRシステムは、ノイズが多く実際の音響環境下の録音に対しても耐障害性をどのように高められるか？
RQ2屈曲語・合成語を特徴とする言語において、言語モデルにおける未知語語彙（OOV）率を効果的に低減する手法は何か？
RQ3手動で標点が付加されたトレーニングデータがなくても、ASR出力における標点を信頼性高く復元する方法は何か？
RQ4多数の有名人の発話者識別を、セグメントレベルのアノテーションなしで効果的に訓練できるか？
RQ5弱教師付き学習は、放送ニュース環境下で高精度の発話者識別をどの程度達成できるか？

主な発見

放送会話のテストセットでは8.1%の語誤り率（WER）を達成し、半自発的会話における強力な性能を示した。
会議音声では12.9%のWERを、実際の環境下でのユーザー生成録音では22.7%のWERを達成した。
手動トランスクリプトデータ上での評価において、提案手法によるOOV対処によりF1スコアが0.5–1.1%向上し、スロット誤り率が1.3–2.2%低下した。
ASR出力上での標点復元改善により、相対的F1スコアが0.5–0.6%向上し、相対的SERが0.1–0.2%低下した。
弱教師付き発話者識別システムは、放送ニュース評価セットで93%の精度で66%の時間加重再現率を達成した。
オラクル・ダイアライゼーションを用いた場合75%、自動ダイアライゼーションを用いた場合66%の再現率を達成し、未学習のコンテンツに対しても優れた一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。