QUICK REVIEW

[논문 리뷰] AutoMOS: Learning a non-intrusive assessor of naturalness-of-speech

Brian Patton, Yannis Agiomyrgiannakis|arXiv (Cornell University)|2016. 11. 28.

Topic Modeling참고 문헌 13인용 수 57

한 줄 요약

AutoMOS는 참조 신호가 필요 없이 원시 오디오 웨이브폼에서 음성 자연스러움(MOS)을 예측하는 딥 순환 신경망을 제안한다. 합성기 수준에서 피어슨 상관계수 0.949를 달성하여 인간 평가자 성능에 가까워진다. 모델은 원시 웨이브폼을 사용하고 스택드 LSTMs를 통해 장기적 시간적 의존성을 학습하여 비침습적이고 확장 가능한 TTS 품질 평가 및 자동 튜닝을 가능하게 한다.

ABSTRACT

Developers of text-to-speech synthesizers (TTS) often make use of human raters to assess the quality of synthesized speech. We demonstrate that we can model human raters' mean opinion scores (MOS) of synthesized speech using a deep recurrent neural network whose inputs consist solely of a raw waveform. Our best models provide utterance-level estimates of MOS only moderately inferior to sampled human ratings, as shown by Pearson and Spearman correlations. When multiple utterances are scored and averaged, a scenario common in synthesizer quality assessment, AutoMOS achieves correlations approaching those of human raters. The AutoMOS model has a number of applications, such as the ability to explore the parameter space of a speech synthesizer without requiring a human-in-the-loop.

연구 동기 및 목표

비용이 많이 드는 인간 평가자를 피하는 비침습적이고 자동화된 TTS 자연스러움 평가 시스템을 개발하기 위해.
청결한 參조 신호가 필요 없이 원시 오디오 웨이브폼만을 입력으로 사용하여 인간의 평균 의견 점수(MOS)를 모델링하기 위해.
인간이 개입하는 평가를 대체하여 TTS 시스템의 스케일러블하고 자동화된 튜닝 및 지속적인 품질 모니터링을 가능하게 하기 위해.
예측이 0.5점 단위로 이루어질 때에도 문장 수준과 합성기 수준에서 인간 평가와 높은 상관관계를 달성하기 위해.
딥 러닝이 TTS 엔진 내부나 비용 함수에 의존하지 않고도 내재된 음성 자연스러움 패턴을 학습할 수 있는지 탐색하기 위해.

제안 방법

장기적 시간적 의존성을 캡처하기 위해 원시 16kHz 오디오 웨이브폼을 입력으로 사용하는 스택드 장기 단기 기억(LSTM) 레이어를 갖춘 딥 순환 신경망을 훈련한다.
로그-멜 스펙트로그램 또는 시간 풀링된 1D 컨벌루션을 입력 표현으로 사용하며, 추가로 속도 및 가속도 특징을 포함한다.
최종 LSTM 레이어의 출력을 시간에 따라 맥스 풀링하고, 이를 전결합층을 통해 통과시켜 MOS를 예측한다.
세 가지 손실 전략을 사용하여 훈련한다: 예측된 MOS에 대한 L2 손실, 9개 카테고리 평가 분포에 대한 교차 엔트로피 손실, 정규 분포 하의 로그우도 손실.
훈련을 정규화하고 일반화 성능을 향상시키기 위해 진짜 합성기의 학습된 임베딩을 통합한다.
데이터 유출을 방지하고 현실적인 평가를 보장하기 위해 합성기 수준의 데이터 분할을 사용한 5겹 교차검증을 수행한다.

실험 결과

연구 질문

RQ1딥 러닝 모델은 參조 신호가 없이도 원시 오디오 웨이브폼만을 사용하여 합성 음성의 인간 MOS를 예측할 수 있는가?
RQ2모델은 문장 수준과 집계된 합성기 수준에서 인간 평가와 얼마나 잘 상관되는가?
RQ3모델은 다양한 TTS 합성기 간에 일반화되어 있으며, 텍스트 분포나 합성 파라미터의 변화에도 높은 예측 정확도를 유지할 수 있는가?
RQ4예측이 인간 평가 척도와 일치하는 이산적인 0.5점 단위로 이루어질 때 모델의 성능은 얼마나 유지되는가?
RQ5AutoMOS는 TTS 시스템의 자동 튜닝 및 지속적인 품질 모니터링에 효과적으로 사용될 수 있는가?

주요 결과

AutoMOS는 합성기 수준에서 예측된 MOS와 진짜 MOS 간에 스피어만 상관계수 0.949를 달성하였으며, 샘플링된 인간 평가자의 상관계수 0.986에 가까워졌다.
10개 이상의 문장을 평균화할 경우 AutoMOS는 피어슨 상관계수 0.933, 스피어만 상관계수 0.925를 기록하였으며, 인간 성능에 매우 가까웠다.
합성기 수준에서 0.5점 단위로 정수화된 MOS 예측에 대해 RMSE는 0.075이며, 피어슨 상관계수 0.935, 스피어만 상관계수 0.938를 기록하였다.
5겹 교차검증에서 예측된 MOS가 유사한 그룹 간의 중앙값 캘리브레이션 상관계수는 모두 0.9 초과를 기록하여 예측 분포의 강력한 신뢰성을 보였다.
문장 수준에서 편향 전용 기준 모델(RMSE 0.618)과 길이 기반 신경망(RMSE 0.553)보다 성능이 뛰어나며, 합성기 수준에서의 성능 향상도 뚜렷했다.
모델은 양자화에 대해 강건하며 극단적 점수에 대한 과도한 예측을 피하여 인간 MOS 데이터의 자연스러운 분포를 잘 반영하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.