Skip to main content
QUICK REVIEW

[논문 리뷰] Speech Synthesis with Neural Networks

Orhan Karaali, Gerald Corrigan|ArXiv.org|1998. 11. 24.
Speech Recognition and Synthesis참고 문헌 10인용 수 31
한 줄 요약

이 논문은 시간 지연 신경망(TDNN)을 사용해 음소-음향 매핑을 수행하고 별도의 신경망을 통해 지속 시간을 예측하는 신경망 기반 음성 합성 시스템을 제시한다. 이 시스템은 100 KB 미만의 메모리 사용으로 자연스러운 음성을 생성하며, 기존 연결 합성 시스템보다 훨씬 낮은 메모리 요구량을 보이며, 단어 이해도 수준은 평균 수준이지만 상용 시스템을 뛰어넘는 음성 수용도를 달성한다.

ABSTRACT

Text-to-speech conversion has traditionally been performed either by concatenating short samples of speech or by using rule-based systems to convert a phonetic representation of speech into an acoustic representation, which is then converted into speech. This paper describes a system that uses a time-delay neural network (TDNN) to perform this phonetic-to-acoustic mapping, with another neural network to control the timing of the generated speech. The neural network system requires less memory than a concatenation system, and performed well in tests comparing it to commercial systems using other technologies.

연구 동기 및 목표

  • 기존 연결 합성 및 규칙 기반 합성의 한계를 극복하기 위해 저메모리, 고품질의 신경망 기반 음성 합성 시스템을 개발한다.
  • 일반적으로 수메가바이트의 디파인 데이터가 필요한 연결 합성 시스템과 비교해 저장 요구량을 줄인다.
  • 수동으로 작성된 규칙에 의존하지 않고 실제 음성 데이터를 기반으로 학습함으로써 음성 자연도를 향상시킨다.
  • 이동식 플랫폼에서 실시간 구현 가능성, 음성 품질, 이해도를 평가한다.

제안 방법

  • 시간 지연 신경망(TDNN)은 문맥 의존적 특징을 사용해 음소 표현을 음향 파rameter로 매핑한다.
  • 별도의 신경망이 음소 지속 시간을 음소적 및 문법적 맥락 기반으로 예측한다.
  • 단일 남성 화자로부터 수집한 640개 문장의 음소 및 억양 레이블이 부여된 음성 데이터베이스를 사용한다.
  • 신경망은 순차적 및 무작위 데이터 제시 방식을 조합한 하이브리드 학습 모드를 사용해 역전파 알고리즘으로 학습된다.
  • 최종 네트워크 아키텍처는 TDNN, 순환 구조 및 모듈러 설계 원리를 통합하여 소형화와 성능 최적화를 달성한다.
  • 시스템은 C로 구현되었으며, 파wrPC 기반 하드웨어로 이식되어 실시간 합성을 가능하게 한다.

실험 결과

연구 질문

  • RQ1신경망 기반 TTS 시스템은 규칙 기반 또는 연결 합성 시스템보다 더 자연스러운 음성을 생성할 수 있는가?
  • RQ2전통적인 연결 합성 시스템과 비교해 신경망이 음성 합성에 필요한 메모리 요구량을 줄일 수 있는가?
  • RQ3단일 화자 데이터로 학습된 신경망이 다양한 문장에서 수용 가능한 음성 품질을 제공하는가?
  • RQ4상용 시스템과 비교해 신경망 기반 TTS 시스템의 이해도 및 수용도는 어떻게 평가되는가?
  • RQ5저전력 이동식 하드웨어에서 시스템을 실시간으로 실행할 수 있는가?

주요 결과

  • 신경망 시스템은 음성 수용도 평가에서 5점 만점에 4.3점을 기록하여 DECTalk(3.5점) 및 PlainTalk(2.3점)과 같은 상용 시스템을 뛰어넘었다.
  • 단어 수준의 이해도는 55%로, 일부 상용 시스템보다 낮았으며, 이는 단일 단어 학습 데이터 부족 때문일 수 있다.
  • 학습된 신경망의 가중치는 8비트 정수화로 100 KB 미만으로 압축되었으며, 연결 합성 시스템이 요구하는 수메가바이트보다 크게 향상되었다.
  • Power Macintosh 8500/120에서 파wrPC 칩의 고속 곱셈-합성 명령어를 활용해 실시간 합성을 구현했다.
  • 스펙트로그램 분석 결과, 자연스러운 지속 시간을 가진 합성 음성이 품질 면에서 자연 음성과 유사함을 확인했다.
  • 독립 테스트 결과 시스템의 뛰어난 자연도가 확인되었지만, 단어 이해도 및 억양의 다양성 향상은 향후 개선이 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.