QUICK REVIEW

[論文レビュー] RNN Approaches to Text Normalization: A Challenge

Richard Sproat, Navdeep Jaitly|arXiv (Cornell University)|Oct 31, 2016

Speech Recognition and Synthesis参考文献 1被引用数 55

ひとこと要約

この論文は、新たに公開された日本語表記とその発音化された形態が対応付けられたデータセットを用いて、NLPコミュニティにRNNベースのモデルによるテキスト正規化の開発を挑戦する。全体的な精度は高いが、実運用環境ではRNNが深刻な誤りを発生させる。RNNに単純なFSTフィルタを組み合わせることで信頼性が著しく向上し、RNN単体では堅牢な正規化に不十分であることが示唆される。

ABSTRACT

This paper presents a challenge to the community: given a large corpus of written text aligned to its normalized spoken form, train an RNN to learn the correct normalization function. We present a data set of general text where the normalizations were generated using an existing text normalization component of a text-to-speech system. This data set will be released open-source in the near future. We also present our own experiments with this data set with a variety of different RNN architectures. While some of the architectures do in fact produce very good results when measured in terms of overall accuracy, the errors that are produced are problematic, since they would convey completely the wrong message if such a system were deployed in a speech application. On the other hand, we show that a simple FST-based filter can mitigate those errors, and achieve a level of accuracy not achievable by the RNN alone. Though our conclusions are largely negative on this point, we are actually not arguing that the text normalization problem is intractable using an pure RNN approach, merely that it is not going to be something that can be solved merely by having huge amounts of annotated text data and feeding that to a general RNN model. And when we open-source our data, we will be providing a novel data set for sequence-to-sequence modeling in the hopes that the the community can find better solutions. The data used in this work have been released and are available at: https://github.com/rwsproat/text-normalization-data

研究の動機と目的

大規模な対応付いたテキストデータからRNNがテキスト正規化を学習する課題に対処する。
RNNがテキスト正規化における書記形から発音形への複雑な対応関係を信頼性を持って学習できるかを調査する。
純粋なRNNアプローチが音声応用のための誤りのない正規化を生成する上で有する限界を評価する。
RNNと有限状態トランスダーサ（FST）を組み合わせたハイブリッドシステムがRNNの誤りを是正し、精度を向上させることを実証する。
今後のシーケンス対シーケンスモデリング研究を進めるために、新規のオープンソースデータセットを公開する。

提案手法

既存の音声合成システムの正規化部を用いて、大規模な書記テキストコーパスの正規化された発音形を生成する。
LSTM や GRU などのさまざまなRNNアーキテクチャを、書記テキストから正規化形へのシーケンス・ツー・シーケンスタスクに訓練する。
言語ルールを活用して体系的な誤りを是正するため、有限状態トランスダーサ（FST）ベースのフィルタを適用する。
語誤り率（WER）などの標準的指標と、失敗事例の誤り分析を用いてモデルを評価する。
エンド・ツー・エンドのRNN性能とRNN+FSTハイブリッドシステムを比較し、誤り低減効果を評価する。
データセットを公開して、今後のシーケンスモデリングおよびテキスト正規化分野の研究を支援する。

実験結果

リサーチクエスチョン

RQ1RNNが大規模かつ多様な書記テキストから正規化された発音形への変換を高精度で行えるか？
RQ2RNNはテキスト正規化においてどのような誤りを生じさせ、それが実世界の音声応用にどのような影響を与えるか？
RQ3単純なFSTベースのフィルタが、RNNが出力する誤りをどの程度是正できるか？
RQ4RNN単体の性能は、本番環境の音声システムへの導入に十分か？
RQ5提案されたオープンソースデータセットが、コミュニティ研究を通じてより優れた正規化モデルの開発を可能にするか？

主な発見

RNNはテキスト正規化タスクにおいて高い全体的精度を達成しているが、音声応用を誤導する深刻な誤りを発生させる。
RNNモデルは頻繁に数字、略語、頭文字語を誤って発音・表現し、意味的に誤った出力を生じさせる。
単純なFSTベースのフィルタがRNNが生じる深刻な誤りを効果的に是正し、信頼性を著しく向上させる。
ハイブリッドなRNN+FSTシステムは、RNN単体よりも高い精度を達成しており、ルールベースの後処理が不可欠であることを示している。
本研究は、大規模なアノテート済みデータセットを用いても、純粋なRNNアプローチでは堅牢なテキスト正規化に不十分であると結論づける。
著者らは、今後のシーケンス対シーケンスモデリング研究を進めるために、新規のオープンソースデータセットを公開する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。