QUICK REVIEW

[論文レビュー] Deep Speech: Scaling up end-to-end speech recognition

Awni Hannun, Carl Case|arXiv (Cornell University)|Dec 17, 2014

Speech Recognition and Synthesis参考文献 42被引用数 1,513

ひとこと要約

この論文では、複数のGPUと広範なデータ合成を用いて訓練された大規模な再帰型ニューラルネットワーク（RNN）に基づくエンド・ツー・エンドの音声認識システム、Deep Speechを提示する。シンプルでスケーラブルなRNNアーキテクチャを用い、生のスペクトログ램を直接テキストにマッピングすることで、ノイズの多い環境においても、従来の公表済みの結果を上回り、商用システムをも凌駆する。Switchboard Hub5'00テストセットでは16.0%の語誤り率（WER）を達成した。

ABSTRACT

We are proposing a keyword-based query interface for knowledge bases - including relational or deductive databases - based on contextual background knowledge such as suitable join conditions or synonyms. Join conditions could be extracted from existing referential integrity (foreign key) constaints of the database schema. They could also be learned from other, previous database queries, if the database schema does not contain foreign key constraints. Given a textual representation - a word list - of a query to a relational database, one may parse the list into a structured term. The intelligent and cooperative part of our approach is to hypothesize the semantics of the word list and to find suitable links between the concepts mentioned in the query using contextual knowledge, more precisely join conditions between the database tables. We use a knowledge-based parser based on an extension of Definite Clause Grammars (Dcg) that are interweaved with calls to the database schema to suitably annotate the tokens as table names, table attributes, attribute values or relationships linking tables. Our tool DdQl yields the possible queries in a special domain specific rule language that extends Datalog, from which the user can choose one.

研究の動機と目的

従来の手作業で設計された処理パイプラインを回避する、よりシンプルでより頑健な音声認識システムの開発。
特別なノイズや話者適応部品を用いずに、特にノイズの多い環境においても、困難な音声認識タスクの性能を向上させること。
大規模なラベル付きデータと効率的なマルチGPU訓練を活用して、エンド・ツー・エンドのディープラーニングを音声認識にスケーリングすること。
データ駆動型のエンド・ツー・エンドアプローチが、複雑な従来の音声認識パイプラインを、正確性と頑健性の面で凌駆できることの実証。

提案手法

スペクトログラム入力を処理し、文字単位の確率を予測するために、5層のフィードフォワード層と1つの双方向RNN層（ReLU活性化関数を用いる）を用いる。
アラインメントのない音声-翻訳ペアに対して、ネットワークをエンド・ツー・エンドで訓練するため、コネクショニスティック・テンポラル分類（CTC）損失を採用する。
ノイズ、リバーブ、ロムバール効果などの現実的な歪みを生成する、新しいデータ合成パイプラインを採用し、モデルの頑健性を向上させる。
大規模なRNNの効率的スケーリングを可能にするために、複数のGPUを用いた分散システム上で、ネステロフの加速勾配降下法を用いてモデルを訓練する。
翻訳精度の向上を図るため、Common Crawlから抽出した2億2000万語のフレーズを用いて別途言語モデルを訓練する。
特に再帰層の並列処理を向上させるために、モデル分割戦略を採用する。

実験結果

リサーチクエスチョン

RQ1エンド・ツー・エンドのディープラーニングシステムは、正確性と頑健性の面で、従来のパイプラインベースの音声認識システムを上回ることができるか？
RQ2データ合成技術は、ノイズや話者変動といった現実の歪みへの一般化性能をどの程度向上させることができるか？
RQ3LSTMのような複雑なアーキテクチャに依存せずに、マルチGPU訓練が大規模なRNNのスケーリングにどの程度有効であるか？
RQ4大規模で多様なデータセットで訓練された単純なRNNにReLU活性化関数とCTC損失を適用することで、最先端の性能を達成できるか？

主な発見

Deep Speechは、Switchboard Hub5'00テストセット全体で16.0%の語誤り率（WER）を達成し、発表当時、新たな最先端の結果を樹立した。
独自に作成したノイズの多い音声認識データセットでは、19.1%のWERを達成し、商用システムが報告する30.5%の誤り率を著しく上回った。
合成されたノイズデータの追加により、ノイズのある発話に対する性能が6.1%絶対値で向上（28.7%から22.6% WERに）し、データ拡張の有効性が裏付けられた。
クリーンとノイズが混在したテストセットにおいて、Google Speech や Apple Dictation などの商用APIよりも優れた性能を示し、11.85%のWERを達成した。
生データのみで訓練されたモデルはクリーン発話で9.2%のWERを達成し、ノイズ拡張済みモデルは9.0%のWERを達成した。これは、データ拡張による性能劣化が最小限であることを示している。
複数のGPUの使用により、LSTMのような複雑な再帰ユニットに頼らずに、大規模なRNNの効率的訓練が可能となり、エンド・ツー・エンド学習のスケーリングが現実的になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。