QUICK REVIEW

[論文レビュー] Large Scale Language Modeling in Automatic Speech Recognition

Ciprian Chelba, Dan Bikel|arXiv (Cornell University)|Oct 31, 2012

Speech Recognition and Synthesis参考文献 11被引用数 37

ひとこと要約

この論文は、大規模なn-gram言語モデルが、多様なタスクにおいて自動音声認識（ASR）性能を顕著に向上させることを示している。最大2300億語のデータセットで訓練し、分散型言語モデルアーキテクチャを用いたラティス再スコアリングを実施することで、6%から10%の相対的語誤り率（WER）低減を達成した。特にYouTubeの音声認識のような高誤り率の状況では、最大10%の相対的改善が得られた。

ABSTRACT

Large language models have been proven quite beneficial for a variety of automatic speech recognition tasks in Google. We summarize results on Voice Search and a few YouTube speech transcription tasks to highlight the impact that one can expect from increasing both the amount of training data, and the size of the language model estimated from such data. Depending on the task, availability and amount of training data used, language model size and amount of work and care put into integrating them in the lattice rescoring step we observe reductions in word error rate between 6% and 10% relative, for systems on a wide range of operating points between 17% and 52% word error rate.

研究の動機と目的

大規模言語モデルが実世界の自動音声認識（ASR）システムに与える影響を評価すること。
言語モデルのサイズと学習データ量の増加がASR性能に与える影響を調査すること。
大規模言語モデルを用いたラティス再スコアリングが語誤り率（WER）を改善する有効性を検証すること。
ウェブクロールや放送ニュースなどの多様な学習データソースが、言語モデルの頑健性に与える寄与を定量化すること。
大規模言語モデルによる性能向上が、深層信念ネットワーク（DBNs）を含む先進的な音響モデル技術による改善と比較してどの程度の効果を示すかを比較すること。

提案手法

匿名化されたGoogle検索クエリから最大2300億語のテキストを用いて3-gramおよび5-gram言語モデルを訓練すること。
性能を維持したままモデルサイズを削減するためのエントロピー刈込を実施し、1500万から15億n-gramの範囲でモデルサイズを調整すること。
完全な最初のパスデコードを必要としないように、分散型言語モデルアーキテクチャを用いてラティス再スコアリングを実装すること。
Kneser-Neyスムージングと複数の言語モデルコンポーネント（例：ウェブクロール、放送ニュース、トランスクリプトデータ）の線形補間を採用すること。
ASR性能を最大化するために、保留テストセット上でMERT（最小誤り率訓練）を用いて補間重みを最適化すること。
小さな最初のパス言語モデルで生成されたラティスに再スコアリングを適用することで、非常に大きな言語モデルの評価を可能にすること。

実験結果

リサーチクエスチョン

RQ1巨視的テキストコーパスで学習された言語モデルのサイズを拡大することで、ASRにおける語誤り率（WER）にどのような影響を与えるか？
RQ2大規模言語モデルを用いたラティス再スコアリングは、大規模モデルを最初のパスデコードに使用した場合の性能をどの程度再現できるか？
RQ3ウェブクロールテキストとキュレートされた放送ニュースデータの両方が、多様なASRタスクにおける言語モデル性能に果たす寄与は何か？
RQ4補間重みとモデル統合戦略が、再スコアリングパイプラインにおける最終的なWERに与える影響は何か？
RQ5大規模言語モデルは、深層信念ネットワーク（DBNs）を含む先進的な音響モデル技術と同等のWER低減効果を達成できるか？

主な発見

音声検索タスクにおいて、1500万n-gramの3-gramモデルと比較して、16億n-gramの5-gram言語モデルを用いることで、WERが10%相対的に低減され、絶対誤り率は1.8%低下した。
127億n-gramの5-gramモデルを用いたラティス再スコアリングにより、音声検索で16.8%のWERを達成し、大規模モデルを最初のパスデコードに使用した場合の性能と一致した。
2011年のYouTubeテストセットでは、56億n-gramの4-gramモデルを用いた再スコアリングにより、WERが3.2%絶対的に低減（6%相対的）され、MERT最適化重みが最良の結果をもたらした。
2008年のYouTubeテストセットでは、190億n-gramの4-gramモデルを用いた再スコアリングにより、WERが34.6%から31.8%に低下し、2.8%絶対的（8%相対的）の改善が得られた。
ウェブクロールテキストの寄与は顕著で、その除去によりWERが1.2%絶対的に上昇した。これは、多様な語彙をカバーする上でその重要性を示している。
大規模言語モデルによる再スコアリングの効果は、深層ニューラルネットワーク音響モデルの改善と同等であり、さまざまな運用ポイントで6–9%の相対的WER低減が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。