QUICK REVIEW

[論文レビュー] Fast offline Transformer-based end-to-end automatic speech recognition for real-world applications

Yoo Rhee Oh, Kiyoung Park|arXiv (Cornell University)|Jan 14, 2021

Speech Recognition and Synthesis参考文献 50被引用数 7

ひとこと要約

本稿では、複数発話のバッチ化ビームサーチ、CTCに基づく発話終了検出、時間制限付きCTCプレフィックススコアリング、およびDNN-VADまたはハードセグメンテーションによる音声セグメンテーションを活用することで、実世界の応用に適した高速で効率的なオフラインTransformerベースのエンドツーエンドASRシステムを提案する。このシステムは、2枚のGPUカードのみを用いて8時間の実際の会議音声データ（8時間分）を3分未塔で処理し、文字誤り率（CER）は10.73%を達成した。これは従来のDNN-HMMシステム比で相対的に27.1%の改善に相当する。

ABSTRACT

With the recent advances in technology, automatic speech recognition (ASR) has been widely used in real-world applications. The efficiency of converting large amounts of speech into text accurately with limited resources has become more important than ever. This paper proposes a method to rapidly recognize a large speech database via a Transformer-based end-to-end model. Transformers have improved the state-of-the-art performance in many fields. However, they are not easy to use for long sequences. In this paper, various techniques to speed up the recognition of real-world speeches are proposed and tested, including decoding via multiple-utterance batched beam search, detecting end-of-speech based on a connectionist temporal classification (CTC), restricting the CTC prefix score, and splitting long speeches into short segments. Experiments are conducted with the Librispeech English and the real-world Korean ASR tasks to verify the proposed methods. From the experiments, the proposed system can convert 8 hours of speeches spoken at real-world meetings into text in less than 3 minutes with a 10.73% character error rate, which is 27.1% relatively lower than that of conventional systems.

研究の動機と目的

限られた計算リソースの中で大規模な実世界音声データベース向けに、オフラインエンドツーエンド音声認識を高速化すること。
Transformerの長時間音声シーケンス処理における計算コストの高さと逐次処理のボトル neck に起因する非効率性を解消すること。
実世界の会議音声変換シナリオにおいて、高い認識精度を維持しながら、デコード速度とGPU利用効率を向上させること。
エンドツーエンドASRにおける長時間発話処理において、DNN-VADとハードセグメンテーションのセグメンテーション戦略を評価・比較すること。
CTCプレフィックススコアリングの計算オーバーヘッドを低減し、時間制限付きのCPUベース処理により高速な推論を可能とすること。

提案手法

複数発話・複数仮説のバッチ化ビームサーチを採用し、GPU並列処理を強化し、複数発話にわたるデコードを高速化する。
特にノイズが多い、または発話が疎な発話においても有効な、CTCに基づく発話終了検出を提案する。
デコードステップごとに検査する時間範囲を制限することで、時間制限付きCTCプレフィックススコアリングを導入し、計算複雑性を低減する。
DNNベースの音声活動検出（VAD）を適用し、自然な間の位置で長時間発話をセグメンテーションすることで、ランダムセグメンテーションよりも認識精度を向上させる。
ハードセグメンテーションを軽量な代替手段として実装し、所定の長さ範囲（15–20秒または19–20秒）内で均等に長時間発話を分割する。
バッチ化ビームサーチとセグメント化された入力を組み合わせることで、GPUメモリ使用率を最大化し、安定した推論速度を維持する。

実験結果

リサーチクエスチョン

RQ1複数発話のバッチ化ビームサーチは、TransformerベースのASRにおけるデコードスループットを顕著に向上させることができるか？
RQ2CTCベースの発話終了検出は、トレーニングとテスト条件が不一致である状況下でも、デコード時間をどれほど短縮できるか？
RQ3時間制限付きCTCプレフィックススコアリングは、認識精度を劣化させることなく、計算負荷をどの程度低減できるか？
RQ4長時間音声処理において、DNN-VADとハードセグメンテーションは、認識精度と計算コストの観点でどのように比較できるか？
RQ5提案されたパイプラインは、最先端の精度を維持しながら、限られたリソースで実世界の会議録音声を高速に、低リソースで変換できるか？

主な発見

提案されたシステムは、2枚のGPUカードのみを用いて、実世界の会議音声データ8時間を3分未塔でテキストに変換した。
韓国語会議データセットにおいて、文字誤り率（CER）は10.73%を達成し、従来のDNN-HMMシステム比で相対的に27.1%の削減に成功した。
DNN-VADを用いたセグメンテーションは、自然なフレーズ境界でのセグメンテーションにより、語区切り誤りを低減し、ハードセグメンテーションよりも高い認識精度を示した。
ハードセグメンテーションは認識精度が低いものの、追加計算が不要であり、リソースオーバーヘッドが低いため、商業的スケールの展開において好ましいとされた。
バッチ化ビームサーチとセグメント化された入力の組み合わせにより、限られたGPUメモリ制約の中で安定的かつ高スループットの推論が可能になった。
時間制限付きCTCプレフィックススコアリングにより、デコードステップごとに検査する時間範囲を制限することで、計算複雑性が低減され、より高速な推論が実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。