[논문 리뷰] Singing voice synthesis based on convolutional neural networks
이 논문은 입력 음악 스코어 특징을 시간 단위로 분할하여 처리함으로써 노래하는 목소리의 장기적 의존성을 포착하는 컨볼루션 신경망(CNN) 기반 음성 합성 모델을 제안한다. 이는 기존의 파rameter 생성 알고리즘의 필요성을 제거한다. 이 방법은 피드포워드 DNN 기반 베이스라인 대비 훨씬 더 자연스러운 합성된 노래 목소리를 달성하며, WaveNet 보이서로 사용할 경우 주관적 MOS 점수를 최대 0.6점 향상시킨다.
The present paper describes a singing voice synthesis based on convolutional neural networks (CNNs). Singing voice synthesis systems based on deep neural networks (DNNs) are currently being proposed and are improving the naturalness of synthesized singing voices. In these systems, the relationship between musical score feature sequences and acoustic feature sequences extracted from singing voices is modeled by DNNs. Then, an acoustic feature sequence of an arbitrary musical score is output in units of frames by the trained DNNs, and a natural trajectory of a singing voice is obtained by using a parameter generation algorithm. As singing voices contain rich expression, a powerful technique to model them accurately is required. In the proposed technique, long-term dependencies of singing voices are modeled by CNNs. An acoustic feature sequence is generated in units of segments that consist of long-term frames, and a natural trajectory is obtained without the parameter generation algorithm. Experimental results in a subjective listening test show that the proposed architecture can synthesize natural sounding singing voices.
연구 동기 및 목표
- 표현적인 노래에서 장기적 시간적 의존성을 모델링하여 합성된 노래 목소리의 자연스러움을 향상시키기 위해.
- 기존의 음성 파rameter 생성 알고리즘을 대체하여 직접 부드러운 음성 특징 경로를 출력하는 CNN 기반 아키텍처를 제안하기 위해.
- 음성 모델에서 순환 구조를 피하므로 병렬화가 가능하고 빠른 훈련 및 추론을 가능하게 하기 위해.
- CNN이 진동, 타이밍 변동과 같은 표현적 가창 다이내믹스를 얼마나 잘 포착하는지 평가하기 위해.
- MLSA 및 WaveNet 보이서를 사용하여 제안된 CNN 기반 시스템을 피드포워드 DNN 기반 베이스라인과 비교하기 위해.
제안 방법
- 시스템은 음악 스코어 특징(음소, 노트 키, 지속시간 등)을 입력으로 받아 2000 프레임 단위의 세그먼트로 음성 특징(멜-세프스트럼 계수, F0, 비주기성, 진동)을 생성한다.
- 이중 브랜치 아키텍처를 사용한다: 첫 번째 부분은 기존의 피드포워드 DNN를 모방하고, 두 번째 부분은 장기적 의존성을 모델링하기 위해 9개의 잔차 블록을 가진 깊은 잔차 CNN을 활용한다.
- CNN은 확장된 컨볼루션을 사용하여 수감 수용장(感受 receptive field)을 확장하여 순환 없이 장거리 시간 패턴을 모델링할 수 있도록 한다.
- 경계에서 100프레임의 크로스페이딩을 사용하여 세그먼트 간의 부드러운 전환을 보장한다.
- 모델은 직접 보이서에 사용할 수 있도록 원시 음성 특징을 출력하며, MLPG를 통한 동적 특징 스무딩이 필요 없다.
- 입력 및 출력 특징은 정규화되며, 시간 지연과 진동 파ram터는 사인 함수를 사용하여 명시적으로 모델링된다.
실험 결과
연구 질문
- RQ1순환 구조에 의존하지 않고도 CNN 기반 음성 모델이 표현적인 가창 목소리의 장기적 의존성을 효과적으로 모델링할 수 있는가?
- RQ2MLPG와 같은 별도의 파rameter 생성 알고리즘의 필요성을 제거하면 합성된 노래 목소리의 자연스러움이 향상되는가?
- RQ3주관적 품질 측면에서 제안된 CNN 기반 시스템은 기존의 피드포워드 DNN 기반 베이스라인과 비교해 어떻게 성능을 내는가?
- RQ4제안된 아키텍처에서 WaveNet 보이서를 사용할 경우 MLSA 보이서 대비 합성된 노래 목소리의 자연스러움이 어느 정도 향상되는가?
- RQ5명시적인 동적 특징 제약 없이도 제안된 아키텍처가 세그먼트 간에 부드럽고 자연스러운 경로를 유지할 수 있는가?
주요 결과
- CNN 기반 시스템(CNN+W)은 주관적 청취 테스트에서 평균 MOS 점수 4.12를 기록하여 피드포워드 DNN 기반 베이스라인(FFNN+W)의 3.52점보다 유의미하게 높은 성능을 보였다.
- WaveNet 보이서를 사용할 경우, 제안된 CNN 모델은 FFNN 기반 베이스라인 대비 MOS 평가에서 자연스러움이 0.6점 향상되었다.
- WaveNet 보이서를 사용한 CNN 기반 시스템은 MOS 4.12를 기록하여 자연스러운 노래 목소리에 가까운 높은 주관적 품질을 나타냈다.
- MLSA 보이서 대비 WaveNet 보이서 사용이 기존 베이스라인과 제안된 시스템 모두에서 MOS 점수를 일관되게 향상시켰다.
- 제안된 방법은 MLPG 파rameter 생성 알고리즘의 필요성을 성공적으로 제거하였으며, 경로의 부드러움과 자연스러움을 유지하거나 향상시켰다.
- 확장된 컨볼루션을 사용한 잔차 CNN 아키텍처는 가창 목소리 시퀀스의 장기적 의존성을 효과적으로 포착하여 더 표현적이고 현실적인 합성을 가능하게 하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.