QUICK REVIEW

[논문 리뷰] RNN Approaches to Text Normalization: A Challenge

Richard Sproat, Navdeep Jaitly|arXiv (Cornell University)|2016. 10. 31.

Speech Recognition and Synthesis참고 문헌 1인용 수 55

한 줄 요약

이 논문은 문장 정규화를 위한 RNN 기반 모델을 개발할 것을 NLP 커뮤니티에 제안하며, 새로 공개된 문장 정규화된 말로 표현과 대응되는 문장 기반 텍스트 데이터셋을 활용한다. 전체적으로는 높은 정확도를 달성하지만, 실세계 적용 시 RNN은 심각한 오류를 유발한다. 이에 RNN에 단순한 FST 필터를 결합하면 신뢰성이 크게 향상되며, 이는 RNN만으로는 정규화에 있어 충분하지 않음을 시사한다.

ABSTRACT

This paper presents a challenge to the community: given a large corpus of written text aligned to its normalized spoken form, train an RNN to learn the correct normalization function. We present a data set of general text where the normalizations were generated using an existing text normalization component of a text-to-speech system. This data set will be released open-source in the near future. We also present our own experiments with this data set with a variety of different RNN architectures. While some of the architectures do in fact produce very good results when measured in terms of overall accuracy, the errors that are produced are problematic, since they would convey completely the wrong message if such a system were deployed in a speech application. On the other hand, we show that a simple FST-based filter can mitigate those errors, and achieve a level of accuracy not achievable by the RNN alone. Though our conclusions are largely negative on this point, we are actually not arguing that the text normalization problem is intractable using an pure RNN approach, merely that it is not going to be something that can be solved merely by having huge amounts of annotated text data and feeding that to a general RNN model. And when we open-source our data, we will be providing a novel data set for sequence-to-sequence modeling in the hopes that the the community can find better solutions. The data used in this work have been released and are available at: https://github.com/rwsproat/text-normalization-data

연구 동기 및 목표

대규모로 정렬된 텍스트 데이터에서 RNN이 문장 정규화를 학습할 수 있도록 도전하는 것.
RNN이 문장 정규화에서 문장에서 말로 표현된 형태로의 복잡한 매핑을 신뢰성 있게 학습할 수 있는지 조사하는 것.
순수한 RNN 접근 방식이 음성 응용 프로그램을 위한 오류 없는 정규화를 생성하는 데에 한계가 있는지 평가하는 것.
RNN과 유한상태변환기(FST)를 조합한 하이브리드 시스템이 RNN 오류를 수정하고 정확도를 향상시킬 수 있음을 보여주는 것.
향후 순차적 모델링 및 문장 정규화 연구를 지원하기 위해 새로운 오픈소스 데이터셋을 공개하는 것.

제안 방법

기존의 음성 합성 시스템의 정규화 모듈을 활용하여 대규모 문장 텍스트 코퍼스의 정규화된 말로 표현된 형태를 생성하는 것.
RNN 아키텍처(예: LSTM, GRU)를 다양한 형태로 구성하여 문장에서 정규화된 형태로의 순차적 매핑 작업을 학습하는 것.
언어 규칙을 활용하여 체계적인 오류를 수정하기 위해 유한상태변환기(FST) 기반 필터를 적용하는 것.
표준 평가 지표(예: 단어 오류율(WER))와 실패 케이스 분석을 통해 모델 성능을 평가하는 것.
엔드 투 엔드 RNN 성능과 RNN+FST 하이브리드 시스템을 비교하여 오류 완화 효과를 평가하는 것.
향후 연구를 지원하기 위해 데이터셋을 공개하는 것.

실험 결과

연구 질문

RQ1RNN은 대규모이고 다양한 종류의 문장에서 정규화된 말로 표현된 형태로의 변환을 수행할 때 높은 정확도를 달성할 수 있는가?
RQ2RNN은 문장 정규화에서 어떤 종류의 오류를 유발하며, 이러한 오류는 실세계 음성 응용 프로그램에 어떤 영향을 미치는가?
RQ3간단한 FST 기반 필터가 RNN이 생성한 오류를 어느 정도까지 수정할 수 있는가?
RQ4RNN의 성능은 실사용 환경의 음성 시스템에 배포하기에 충분한가?
RQ5제안된 오픈소스 데이터셋을 통해 커뮤니티 연구를 통해 더 나은 정규화 모델 개발이 가능해지는가?

주요 결과

RNN은 문장 정규화 작업에서 높은 전체 정확도를 달성하지만, 실세계 응용에서 오류를 일으켜 음성 응용 프로그램을 오도할 수 있다.
RNN 모델은 자주 숫자, 약어, 약칭을 잘못 발음하거나 잘못 표현하여 의미적으로 잘못된 출력을 생성한다.
간단한 FST 기반 필터가 RNN이 생성하는 가장 심각한 오류를 효과적으로 수정하여 신뢰성을 크게 향상시킨다.
하이브리드 RNN+FST 시스템은 RNN 단독 성능보다 더 높은 정확도를 달성하며, 규칙 기반 후처리가 필수적임을 입증한다.
연구 결과, 대규모 정규화된 데이터셋이 있더라도 순수한 RNN 접근 방식은 강건한 문장 정규화에 부적합하다는 결론을 내린다.
저자들은 향후 순차적 모델링 및 문장 정규화 연구를 지원하기 위해 새로운 오픈소스 데이터셋을 공개한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.