[논문 리뷰] MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms
MelGAN-VC는 스펙트로그램 변환을 사용하여 고음질, 임의의 길이의 오디오 샘플을 생성하는 비병렬, GAN 기반의 음성 변환 및 오디오 스타일 전이 방법을 제안한다. 이는 언어적 내용을 유지하고 부드러운 연결을 보장하기 위해 시아모이 네트워크와 TraVeL 손실, 스펙트로그램 타일링을 활용한다. 이로 인해 청소된 음성과 노이즈가 있는 음성, 음악 장르 전이 모두에서 현실적인 결과를 달성한다.
Traditional voice conversion methods rely on parallel recordings of multiple speakers pronouncing the same sentences. For real-world applications however, parallel data is rarely available. We propose MelGAN-VC, a voice conversion method that relies on non-parallel speech data and is able to convert audio signals of arbitrary length from a source voice to a target voice. We firstly compute spectrograms from waveform data and then perform a domain translation using a Generative Adversarial Network (GAN) architecture. An additional siamese network helps preserving speech information in the translation process, without sacrificing the ability to flexibly model the style of the target speaker. We test our framework with a dataset of clean speech recordings, as well as with a collection of noisy real-world speech examples. Finally, we apply the same method to perform music style transfer, translating arbitrarily long music samples from one genre to another, and showing that our framework is flexible and can be used for audio manipulation applications different from voice conversion.
연구 동기 및 목표
- 실제 응용에서 자주 확보되지 않는 병렬 학습 데이터가 필요로 하지 않는 음성 변환 방법을 개발하는 것.
- 고정 길이의 GAN 기반 모델의 한계를 극복하여 임의의 길이의 오디오 샘플에 대한 엔드 투 엔드 변환을 가능하게 하는 것.
- 사이클 일致성 제약 조건에 의존하지 않고 시아모이 네트워크와 TraVeL 손실을 통해 언어적 내용을 유지하는 것.
- 음성 변환을 넘어서 음악 장르 전이와 같은 일반적인 오디오 스타일 전이로 프레임워크를 확장하는 것.
- 노이즈가 있는 실제 음성 데이터에서의 강건성과 Griffin-Lim 복원을 통한 고품질 오디오 재구성 성능을 입증하는 것.
제안 방법
- 학습 안정성을 위해 U-Net 기반 생성자와 생성자 및 판별자 양쪽에 스펙트럼 정규화를 사용한다.
- 스펙트로그램을 시간 축에 따라 겹치는 패치로 분할하고, 생성자가 처리한 후 연결하여 연속적인 출력을 형성함으로써 경계에서의 불연속성을 방지한다.
- 원본 및 생성된 스펙트로그램을 처리하기 위해 시아모이 네트워크를 사용하여 잠재 공간에서의 벡터 산술을 강제하고, TraVeL 손실을 통해 내용을 유지한다.
- 특히 음성 변환 작업에서 언어적 내용 유지 강도를 높이기 위해 학습 중에 아이덴티티 손실을 적용한다.
- 모델은 로그-암반도 스펙트로그램을 사용하며, -1에서 1 사이로 정규화된 값을 사용하고, Griffin-Lim 알고리즘을 통해 웨이브폼을 복원한다.
- 학습에는 Adam 옵timizer를 사용하며, 생성자/판별자에 대해 별도의 학습률을 설정하고, 생성자 업데이트당 여러 번의 판별자 업데이트를 수행한다.
실험 결과
연구 질문
- RQ1GAN 기반의 음성 변환 시스템이 병렬 학습 데이터가 없이도 고음질 결과를 달성할 수 있는가?
- RQ2사이클 일치성이나 픽셀 수준의 재구성에 의존하지 않고 음성 변환에서 내용 유지가 어떻게 강제될 수 있는가?
- RQ3스펙트로그램 세그먼트를 타일링하고 연결하여 임의의 길이의 오디오 샘플로 일반화할 수 있는가?
- RQ4동일한 프레임워크가 음성 변환을 넘어서 음악 장르 전이와 같은 오디오 스타일 전이를 지원할 수 있는가?
- RQ5노이즈가 있는 실제 음성 데이터에서 모델의 성능은 청소된 병렬 데이터셋과 비교해 어떻게 되는가?
주요 결과
- MelGAN-VC는 ARCTIC 데이터셋에서 매우 현실적인 음성 변환 결과를 도출하였으며, 내성적·외성적 성별 설정 모두에서 언어적 이해도가 유지되었다.
- 도널드 트럼프의 유튜브 연설에서 나온 노이즈가 있는 실제 음성 샘플을 성공적으로 변환하였으며, 입력 노이즈로 인해 약간 덜 이해하기 쉬운 결과를 내놓았지만 현실적인 출력을 얻었다.
- 시아모이 네트워크와 함께 사용된 TraVeL 손실은 사이클 일치성 제약 없이 효과적으로 내용을 유지하며, 다양한 도메인 간 전이의 유연성을 제공한다.
- 아이덴티티 손실은 음성 변환에서 내용 유지에 기여하지만, 음악 장르 전이에서는 필요하지 않으며, 이를 생략함으로써 계산 비용을 절감할 수 있다.
- GTZAN 데이터셋을 사용하여 음악 스타일 전이로의 일반화에 성공하였으며, 록, 재즈, 클래식 장르 간의 변환을 성공적으로 수행하였다.
- Griffin-Lim 복원을 통해 생성된 오디오 샘플은 모델에서 사용된 고차원 스펙트로그램 덕분에 높은 청각적 품질을 유지하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.