[논문 리뷰] Speech Synthesis with Neural Networks
이 논문은 시간 지연 신경망(TDNN)을 사용해 음소-음향 매핑을 수행하고 별도의 신경망을 통해 지속 시간을 예측하는 신경망 기반 음성 합성 시스템을 제시한다. 이 시스템은 100 KB 미만의 메모리 사용으로 자연스러운 음성을 생성하며, 기존 연결 합성 시스템보다 훨씬 낮은 메모리 요구량을 보이며, 단어 이해도 수준은 평균 수준이지만 상용 시스템을 뛰어넘는 음성 수용도를 달성한다.
Text-to-speech conversion has traditionally been performed either by concatenating short samples of speech or by using rule-based systems to convert a phonetic representation of speech into an acoustic representation, which is then converted into speech. This paper describes a system that uses a time-delay neural network (TDNN) to perform this phonetic-to-acoustic mapping, with another neural network to control the timing of the generated speech. The neural network system requires less memory than a concatenation system, and performed well in tests comparing it to commercial systems using other technologies.
연구 동기 및 목표
- 기존 연결 합성 및 규칙 기반 합성의 한계를 극복하기 위해 저메모리, 고품질의 신경망 기반 음성 합성 시스템을 개발한다.
- 일반적으로 수메가바이트의 디파인 데이터가 필요한 연결 합성 시스템과 비교해 저장 요구량을 줄인다.
- 수동으로 작성된 규칙에 의존하지 않고 실제 음성 데이터를 기반으로 학습함으로써 음성 자연도를 향상시킨다.
- 이동식 플랫폼에서 실시간 구현 가능성, 음성 품질, 이해도를 평가한다.
제안 방법
- 시간 지연 신경망(TDNN)은 문맥 의존적 특징을 사용해 음소 표현을 음향 파rameter로 매핑한다.
- 별도의 신경망이 음소 지속 시간을 음소적 및 문법적 맥락 기반으로 예측한다.
- 단일 남성 화자로부터 수집한 640개 문장의 음소 및 억양 레이블이 부여된 음성 데이터베이스를 사용한다.
- 신경망은 순차적 및 무작위 데이터 제시 방식을 조합한 하이브리드 학습 모드를 사용해 역전파 알고리즘으로 학습된다.
- 최종 네트워크 아키텍처는 TDNN, 순환 구조 및 모듈러 설계 원리를 통합하여 소형화와 성능 최적화를 달성한다.
- 시스템은 C로 구현되었으며, 파wrPC 기반 하드웨어로 이식되어 실시간 합성을 가능하게 한다.
실험 결과
연구 질문
- RQ1신경망 기반 TTS 시스템은 규칙 기반 또는 연결 합성 시스템보다 더 자연스러운 음성을 생성할 수 있는가?
- RQ2전통적인 연결 합성 시스템과 비교해 신경망이 음성 합성에 필요한 메모리 요구량을 줄일 수 있는가?
- RQ3단일 화자 데이터로 학습된 신경망이 다양한 문장에서 수용 가능한 음성 품질을 제공하는가?
- RQ4상용 시스템과 비교해 신경망 기반 TTS 시스템의 이해도 및 수용도는 어떻게 평가되는가?
- RQ5저전력 이동식 하드웨어에서 시스템을 실시간으로 실행할 수 있는가?
주요 결과
- 신경망 시스템은 음성 수용도 평가에서 5점 만점에 4.3점을 기록하여 DECTalk(3.5점) 및 PlainTalk(2.3점)과 같은 상용 시스템을 뛰어넘었다.
- 단어 수준의 이해도는 55%로, 일부 상용 시스템보다 낮았으며, 이는 단일 단어 학습 데이터 부족 때문일 수 있다.
- 학습된 신경망의 가중치는 8비트 정수화로 100 KB 미만으로 압축되었으며, 연결 합성 시스템이 요구하는 수메가바이트보다 크게 향상되었다.
- Power Macintosh 8500/120에서 파wrPC 칩의 고속 곱셈-합성 명령어를 활용해 실시간 합성을 구현했다.
- 스펙트로그램 분석 결과, 자연스러운 지속 시간을 가진 합성 음성이 품질 면에서 자연 음성과 유사함을 확인했다.
- 독립 테스트 결과 시스템의 뛰어난 자연도가 확인되었지만, 단어 이해도 및 억양의 다양성 향상은 향후 개선이 필요하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.