QUICK REVIEW

[論文レビュー] Developing Acoustic Models for Automatic Speech Recognition in Swedish

Giampiero Salvi|arXiv (Cornell University)|Apr 25, 2024

Speech Recognition and Synthesis参考文献 4被引用数 5

ひとこと要約

論文は SpeechDat Swedish コーパスで訓練された HMM を用いて話者不特定のスウェーデン語音響モデルを構築し、モノフォンとトライフォンの構成を比較、さまざまな文脈拡張とガウス混合を用いて評価、200人の話者サブセットで評価。

ABSTRACT

This paper is concerned with automatic continuous speech recognition using trainable systems. The aim of this work is to build acoustic models for spoken Swedish. This is done employing hidden Markov models and using the SpeechDat database to train their parameters. Acoustic modeling has been worked out at a phonetic level, allowing general speech recognition applications, even though a simplified task (digits and natural number recognition) has been considered for model evaluation. Different kinds of phone models have been tested, including context independent models and two variations of context dependent models. Furthermore many experiments have been done with bigram language models to tune some of the system parameters. System performance over various speaker subsets with different sex, age and dialect has also been examined. Results are compared to previous similar studies showing a remarkable improvement.

研究の動機と目的

大規模で多様な話者データベースを用いて、数字、自然数、より大きな語彙を含むさまざまなタスクに適した話されるスウェーデン語の堅牢な音響モデルを開発する。
文脈非依存および文脈依存（トライフォン）HMM の双方を探求し、性能のトレードオフを理解する。
巻き舌音の同音語を含む語彙（lexicon）構成が認識精度に与える影響を評価する。
性別、年齢、方言地域、ノイズ条件による話者サブセット間でのモデルの一般化を評価する。
外部データベース（Waxholm）での評価によりモデルの柔軟性を示し、Norwegian SpeechDat の結果と比較する。

提案手法

ターゲットスウェーデン語音素と非ターゲットの音声（ノイズ、無音、語境境界、ガーベジ）を含むHMMベースの音響モデルを訓練する。
モノフォンおよびトライフォンのトポロジを試行する。破裂音には4発/状態HMMを、他の音素には3発/状態HMMを用いる。
トライフォンモデルについて、語内コンテキスト拡張と語間拡張を試験し、データ疎密を緩和するためツリークラスタリングを適用する。
出力分布をガウス混合(2,4,8成分)で強化し、適合性と一般化を向上させる。
ラベル付き音素転写を用いた埋め込み Baum-Welch でモデルを訓練し、ガーベジおよび境界モデルを訓練に含める。
動的計画法に基づくアラインメントを用いて正確な単語と精度を算出して評価する。

実験結果

リサーチクエスチョン

RQ1電話チャネル条件下でスウェーデン語のモノフォンとトライフォンの音響モデルは認識精度でどのように比較されるか？
RQ2語内拡張と語間拡張がトライフォンモデルの性能に与える影響は何か？
RQ3このデータセットとタスクで、レキシコンに巻き舌音の同音体を含めると認識精度は改善されるのか、それとも低下するのか？
RQ4ガウス混合成分数（2,4,8）がモノフォンおよびトライフォンの認識性能にどのように影響するか？
RQ5性別・年齢・方言・地域差で定義される話者サブセットに対して、開発されたモデルはどれくらい頑健か？
RQ6開発されたスウェーデン語音響モデルは他データセット（Waxholm）へ一般化できるか、またNorwegian SpeechDat の結果とどのように比較されるか？

主な発見

実験	相関 (mb)	精度 (mb)	相関 (nmb)	精度 (nmb)	相関 (ctba)	精度 (ctba)	相関 (cntba)	精度 (cntba)	相関 (ctnba)	精度 (ctnba)	相関 (cntnba)
mb	69.4	66.4	68.1	63.1	N/A	N/A	N/A	N/A	N/A	N/A	N/A
nmb	68.1	63.1	71.5	67.9	N/A	N/A	N/A	N/A	N/A	N/A	N/A
ctba	89.5	87.4	90.7	88.5	90.8	88.6	N/A	N/A	N/A	N/A	N/A
cntba	89.1	86.4	90.3	88.1	90.5	88.3	N/A	N/A	N/A	N/A	N/A
ctnba	86.1	81.8	87.8	84.0	88.4	84.8	N/A	N/A	N/A	N/A	N/A
cntnba	86.8	84.2	88.4	86.1	88.9	86.5	N/A	N/A	N/A	N/A	N/A

全体で最高の精度（88.6%）は、語内拡張のトライフォンモデルを8つのガウス混合で使用したときに得られた。
モノフォンモデルはガウス混合数を増やすと精度が向上する（4〜8）一方、トライフォンの利得は混合数が増えると小さい。
このタスクとレキシコンで用いられた場合、巻き舌音の同音体を除いたモデルが、含んだモデルより一般に優れている。
語間拡張は本タスクでは頑健性が劣り、語内拡張の方が数字など限られた文間文脈のため、精度が高い。
200人の話者で評価すると、ほとんどの話者は高精度を達成する一方、‘goats’とラベル付けされたサブセットは著しく低い性能を示す。地域・方言によって結果は異なり、たとえば Bergslagen地域は良好だが南部スウェーデン地域はより困難。
Waxholm でのテストは、タスクの違いにもかかわらずモデルの柔軟性と競争力のある性能を示す。ノルウェーの SpeechDat の結果は概ね類似しているが、直接比較は難しい。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。