QUICK REVIEW

[論文レビュー] End-to-End Speech Recognition: A Survey

Rohit Prabhavalkar, Takaaki Hori|arXiv (Cornell University)|Jan 1, 2023

Speech Recognition and Synthesis被引用数 6

ひとこと要約

本調査は、アーキテクチャ、トレーニング、デコード、言語モデルとの統合をカバーする、エンドツーエンド（E2E）自動音声認識（ASR）モデルの包括的な分類体系を提供する。E2E ASRが音響モデルと言語モデルを1つのニューラルネットワークに統合することで、手作業で設計されたコンponentsへの依存を低減し、最先端の性能を達成しているが、低リソース環境、トレーニング効率、モデルの解釈可能性といった主要な課題も明らかにしている。

ABSTRACT

In the last decade of automatic speech recognition (ASR) research, the introduction of deep learning brought considerable reductions in word error rate of more than 50% relative, compared to modeling without deep learning. In the wake of this transition, a number of all-neural ASR architectures were introduced. These so-called end-to-end (E2E) models provide highly integrated, completely neural ASR models, which rely strongly on general machine learning knowledge, learn more consistently from data, while depending less on ASR domain-specific experience. The success and enthusiastic adoption of deep learning accompanied by more generic model architectures lead to E2E models now becoming the prominent ASR approach. The goal of this survey is to provide a taxonomy of E2E ASR models and corresponding improvements, and to discuss their properties and their relation to the classical hidden Markov model (HMM) based ASR architecture. All relevant aspects of E2E ASR are covered in this work: modeling, training, decoding, and external language model integration, accompanied by discussions of performance and deployment opportunities, as well as an outlook into potential future developments.

研究の動機と目的

エンドツーエンド（E2E）ASRモデルおよびその進化の包括的な分類体系を提供すること。
古典的なHMMベースのアーキテクチャと比較して、E2E ASRの特性を分析すること。
共同学習、データ活用、モデル統合がASR性能の向上に果たす役割を検討すること。
低リソース学習、トレーニング効率、モデルの説明可能性といったE2E ASRにおける未解決の課題を特定すること。
テキストと音声データの共同学習を含む、E2Eモデリングにおける主要な研究機会を提示することで、今後の研究を導くこと。

提案手法

共同モデリング、ワンパス探索、共同学習、統一されたデータ、スクラッチからのトレーニング、二次的知識源の回避、一般化されたモデリングに基づく、E2E ASRの多面的定義を提唱する。
RNN-T、Transformerベースのモデル、アテンションベースのエンコーダデコーダ（AED）システムを含む主要なE2Eアーキテクチャをレビューする。
音響モデルと言語モデルの目的関数の共同最適化、およびラベルなし音声・テキストデータの活用技術を含むトレーニング戦略を分析する。
ビームサーチ、ラティス再スコアリング、リアルタイム推論のためのエンドツーエンドエンドポイント検出を含むデコード手法を議論する。
生産環境システムにおける外部言語モデルおよびニューラル言語モデルの再スコアリング統合を検討する。
特に、PixelスマートフォンにおけるGoogleのオンデバイスE2E ASRシステムを含むデプロイ事例をレビューし、遅延と正確性の最適化を強調する。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドASRは、アーキテクチャ、トレーニング、推論の観点から、古典的なHMMベースのASRとどのように異なるか？
RQ2E2E ASRが言語的事前知識に依存を最小限に抑えて高精度を達成できる主なアーキテクチャ的・トレーニング的要因は何か？
RQ3低リソースまたは半教師あり設定下で、E2Eモデルはテキストのみまたは音声のみのデータを効果的に活用できるか？
RQ4オンデバイスにE2E ASRモデルをデプロイする際の主な課題は何か、生産環境システムではどのように対処されているか？
RQ5長さバイアス、耐性、モularityといった観点から、E2E ASRにおける未解決の研究課題は何か？

主な発見

E2E ASRモデルは、古典的システムと比較して語誤り率（WER）を50％以上削減し、LibriSpeechでの最先端性能を達成している。
生産用E2E ASRシステム、特にPixel 6にデプロイされたものでは、コンフォーマーエンコーダー、2パスビームサーチ、ニューラル言語モデルの再スコアリングを活用することで、優れた正確性と低遅延を実現している。
オンデバイスE2Eモデル、特にPixel 4および5に搭載されたものでは、CPU上でリアルタイムに動作し、FastEmitおよびエンドツーエンドエンドポイント検出といった技術を用いて遅延を低減している。
高い性能を発揮しているにもかかわらず、E2Eモデルは低リソース環境やドメイン不一致状況では困難を示しており、より効率的なデータ活用のトレーニング戦略の必要性が示唆されている。
AEDモデルにおける長さバイアスは依然として深刻な問題であり、完全に根拠のある理論的説明や解決策はまだ確立されていない。
E2Eモデルは、マルチチャネル環境下での音声分離、スピーカーディアライゼーション、ASRの統合的処理に強く有望な可能性を示しており、統合的音声処理パイプラインへの道筋を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。