[논문 리뷰] Adversarial Generation of Time-Frequency Features with application in audio synthesis
이 논문은 고해상도 음성 합성을 위해 역행 가능하는 단기 푸리에 변환(STFT) 특징을 생성하는 생성적 적대적 네트워크인 TiFGAN을 제안한다. 이는 정교하게 선택된 STFT 파arameter와 신뢰할 수 있는 무위상 복원을 위한 새로운 일致성 측도를 활용한다. 청각적 및 수치적 평가에서 최신의 파형 기반 GAN보다 뛰어난 성능을 보이며, 음성 합성에서 적대적 시간-주파수 모델링의 우수성을 입증한다.
Time-frequency (TF) representations provide powerful and intuitive features for the analysis of time series such as audio. But still, generative modeling of audio in the TF domain is a subtle matter. Consequently, neural audio synthesis widely relies on directly modeling the waveform and previous attempts at unconditionally synthesizing audio from neurally generated invertible TF features still struggle to produce audio at satisfying quality. In this article, focusing on the short-time Fourier transform, we discuss the challenges that arise in audio synthesis based on generated invertible TF features and how to overcome them. We demonstrate the potential of deliberate generative TF modeling by training a generative adversarial network (GAN) on short-time Fourier features. We show that by applying our guidelines, our TF-based network was able to outperform a state-of-the-art GAN generating waveforms directly, despite the similar architecture in the two networks.
연구 동기 및 목표
- 신경망을 사용해 역행 가능한 시간-주파수(TF) 특징을 생성할 때 저품질 음성 합성 문제를 해결하기 위해.
- 생성된 TF 특징에서 신뢰할 수 있는 무위상 복원을 보장하는 데 핵심이 되는 주요 STFT 파arameter 선택을 규명하고 형식화하기 위해.
- GAN 학습 중에 생성된 크기 STFT의 품질을 평가하기 위한 새로운 계산 효율적인 일치성 측도를 개발하기 위해.
- 시간-주파수 도메인에서의 적대적 생성이 파형 기반 GAN보다 뛰어난 음성 합성 품질을 달성할 수 있음을 입증하기 위해.
- 음성 기반의 견고하고 역행 가능한 TF 기반 생성 모델을 훈련하기 위한 지침과 도구를 제공하기 위해.
제안 방법
- 저자들은 직접 로그-크기 및 위상 도함수 특징을 생성함으로써 복원 가능한 음성 복원이 가능한 TiFGAN이라는 GAN을 설계한다.
- 연속 STFT 이론과 무위상 복원 원칙에 기반하여 창 길이, 홉 사이즈 등 STFT 파arameter(예: 창 길이, 홉 사이즈)에 대한 지침을 유도하여 신호 복원 가능성 보장을 위해.
- 크기 STFT의 구조적 신뢰성 평가를 위한 새로운 일치성 측도를 도입하여 학습 중에 복원 가능성 잠재력을 조기에 평가할 수 있도록 한다.
- 최근의 위상 복원 기술 발전에 영감을 받아 시간 방향 및 주파수 방향 위상 도함수를 활용하여 복원 품질을 향상시킨다.
- 학습은 음성 및 음악 데이터셋에서 엔드 투 엔드로 수행되며, 생성된 위상 도함수를 사용한 Griffin-Lim 유사 알고리즘을 통해 복원이 이루어진다.
- 프로토콜은 6명의 참가자와 함께 청각 평가를 포함하며, 수치적 지표(IS, FID, RSPE)를 통해 음성 품질을 검증한다.
실험 결과
연구 질문
- RQ1역행 가능한 STFT 특징의 적대적 생성이 직접 파형 GAN보다 더 높은 품질의 음성을 생성할 수 있는가?
- RQ2생성된 특징에서 신뢰할 수 있는 무위상 복원을 보장하기 위해 어떤 STFT 파arameter 선택이 필요한가?
- RQ3GAN 학습 중에 생성된 크기 STFT의 일관성은 어떻게 측정하고 모니터링할 수 있는가?
- RQ4직접 위상 생성에 비해 위상 도함수를 활용한 복원은 음성 복원 품질을 얼마나 향상시키는가?
- RQ5TF 기반 GAN이 청각적 및 수치적 평가 모두에서 최신의 파형 기반 GAN을 능가할 수 있는가?
주요 결과
- 청각 테스트에서 TiFGAN-M는 실제 음성보다 94%의 선호도를 기록하여 WaveGAN이 비교에서 94%의 선호도를 기록한 것과는 대조적으로 뚜렷이 뛰어난 성능을 보였다.
- TiFGAN-M는 직접 비교에서 WaveGAN과 TiFGAN-MTF를 모두 능가했으며, WaveGAN에 대해 75%의 선호도, TiFGAN-MTF에 대해 67%의 선호도를 기록했다.
- 수치 지표 분석 결과, TiFGAN-M는 가장 높은 Inception Score(IS)와 Fréchet Audio Distance(FID)를 기록하여 더 뛰어난 샘플 품질과 분포 일치를 보였다.
- 일치성 측도는 복원 신뢰성 예측에 성공했으며, 실제 데이터가 가장 높은 일관성을 보였고, 그 다음으로 TiFGAN-M, TiFGAN-MTF 순이었다.
- 생성된 위상 도함수를 기반으로 PGHI를 사용한 위상 복원은 상대적 투영 오차(RSPE)가 -7.5 dB로 직접 위상 생성보다 유의미하게 뛰어나, 위상 도함수 모델링의 유용성을 확인했다.
- 강력한 성능에도 불구하고, TiFGAN-MTF는 IS 및 FID 측면에서 WaveGAN과 비교해 혼합된 결과를 보였으며, 이는 직접 위상 생성이 여전히 유망하지만 아직 탐색되지 않은 분야임을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.