Skip to main content
QUICK REVIEW

[論文レビュー] WeNet: Production First and Production Ready End-to-End Speech Recognition Toolkit.

Binbin Zhang, Di Wu|arXiv (Cornell University)|Feb 2, 2021
Speech Recognition and Synthesis参考文献 6被引用数 18
ひとこと要約

WeNetは、研究と実用的導入の間のギャップを埋める、プロダクション最適化のE2E(エンドツーエンド)音声認識ツールキットです。AISHELL-1において、ストリーミングおよび非ストリーミングの両方のシナリオで、効率的な推論と低い文字誤り率(CER)を達成しており、実用的利用に適しています。

ABSTRACT

In this paper, we present a new open source, production first and production ready end-to-end (E2E) speech recognition toolkit named WeNet. The main motivation of WeNet is to close the gap between the research and the production of E2E speech recognition models. WeNet provides an efficient way to ship ASR applications in several real-world scenarios, which is the main difference and advantage to other open source E2E speech recognition toolkits. This paper introduces WeNet from three aspects, including model architecture, framework design and performance metrics. Our experiments on AISHELL-1 using WeNet, not only give a promising character error rate (CER) on a unified streaming and non-streaming two pass (U2) E2E model but also show reasonable RTF and latency, both of these aspects are favored for production adoption. The toolkit is publicly available at this https URL

研究の動機と目的

  • 研究プロトタイプとプロダクション対応のE2E音声認識システムの間のギャップを埋えること。
  • 実世界のアプリケーションにおけるE2E ASRモデルの効率的導入を可能にすること。
  • 統一された2パス(U2)モデルアーキテクチャにより、ストリーミングおよび非ストリーミング推論を両方サポートすること。
  • プロダクション環境における推論効率とレイテンシーを最適化すること。
  • 産業スケールのASRアプリケーションに適したスケーラブルでオープンソースのツールキットを提供すること。

提案手法

  • ストリーミングおよび非ストリーミング推論を両方サポートする統一された2パス(U2)E2Eモデルアーキテクチャの設計。
  • 低レイテンシーおよびリアルタイムパフォーマンスを最適化した効率的な推論パイプラインの実装。
  • プロダクション導入に適した効率的なニューラルネットワークコンポONENTおよび推論最適化の活用。
  • トレーニングと推論ワークフローを統合した1つのプロダクション対応フレームワークへの統合。
  • ストリーミングおよび非ストリーミング推論を1つのモデルアーキテクチャで処理することで、複雑さを低減すること。
  • ハードウェアに配慮した最適化により、推論を低RTF(リアルタイム要因)および低レイテンシーに最適化すること。

実験結果

リサーチクエスチョン

  • RQ1E2E音声認識モデルを、高精度を維持したままプロダクション対応にできるか。
  • RQ2どのようなアーキテクチャ的およびエンジニアリング的選択が、実世界システムにおけるE2E ASRの効率的導入を可能にするか。
  • RQ3統一モデルが、ストリーミングおよび非ストリーミング推論の両方で競争力のあるパフォーマンスを達成できるか。
  • RQ4E2Eモデルがプロダクションに近い環境で、レイテンシーおよびリアルタイム要因(RTF)の特性をどのように示すか。
  • RQ5WeNetツールキットは、既存のオープンソースE2E ASRツールキットと比較して、導入準備の程度においてどのように異なるか。

主な発見

  • WeNetは、統一された2パス(U2)E2Eモデルを用いてAISHELL-1データセットで有望な文字誤り率(CER)を達成している。
  • モデルは妥当なリアルタイム要因(RTF)と低レイテンシーを示しており、プロダクション導入に適している。
  • ツールキットは、1つのモデルアーキテクチャでストリーミングおよび非ストリーミング推論を両方サポートしている。
  • WeNetはプロダクション利用を想定して設計されており、実世界のシナリオにおける効率的な推論を保証する最適化が施されている。
  • オープンソースのツールキットは公開されており、プロダクション対応であり、E2E ASRアプリケーションの迅速な導入を可能にしている。
  • フレームワークは、研究プロトタイプと産業スケールのASR導入の間のギャップを成功裏に埋め合わせた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。