Skip to main content
QUICK REVIEW

[논문 리뷰] DisSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration

Ziqi Liang, Zhijun Jia|arXiv (Cornell University)|2026. 02. 13.
Speech and Audio Processing인용 수 0
한 줄 요약

DisSR은 열화-사전 지침과 크로스-도메인 적응을 갖춘 해리된 음성 표현 프레임워크를 도입하여 다양한 왜곡 유형에 대한 일반적 확산 기반 음성 복원을 가능하게 한다.

ABSTRACT

Previous speech restoration (SR) primarily focuses on single-task speech restoration (SSR), which cannot address general speech restoration problems. Training specific SSR models for different distortions is time-consuming and lacks generality. In addition, most studies ignore the problem of model generalization across unseen domains. To overcome those limitations, we propose DisSR, a Disentangling Speech Representation based general speech restoration model with two properties: 1) Degradation-prior guidance, which extracts speaker-invariant degradation representation to guide the diffusion-based speech restoration model. 2) Domain adaptation, where we design cross-domain alignment training to enhance the model's adaptability and generalization on cross-domain data, respectively. Experimental results demonstrate that our method can produce high-quality restored speech under various distortion conditions. Audio samples can be found at https://itspsp.github.io/DisSR.

연구 동기 및 목표

  • 특정 왜곡에 맞춘 단일 작업 SR 모델의 일반성 부족 문제를 해결한다.
  • 보이지 않는 열화 유형에 대한 크로스 도메인 일반화를 가능하게 한다.
  • 확산 기반 복원을 안내하기 위한 열화-사전 지침을 활용한다.
  • 도메인 적응 학습을 통해 화자 불변 복원을 향상한다.

제안 방법

  • 확산 기반 복원 모델을 안내하기 위한 화자 불변의 열화 표현을 추출한다(열화-사전 지침).
  • 도메인 간 적응성 및 일반화를 높이기 위한 크로스 도메인 정렬 학습을 사용한다.
  • 열화에서 콘텐츠를 분리하는 분리된 음성 표현 프레임워크를 사용한다.
  • 도메인-전이 능력을 촉진하도록 크로스 도메인 설정에서 학습한다.

실험 결과

연구 질문

  • RQ1열화-사전 지향 신호가 다양한 왜곡에서 확산 기반 SR의 강인성을 향상시킬 수 있는가?
  • RQ2크로스 도메인 정렬 학습이 SR에서 보이지 않는 도메인에 대한 일반화를 향상시키는가?
  • RQ3분리된 표현이 복원을 위해 열화와 음성 콘텐츠를 효과적으로 분리할 수 있는가?
  • RQ4제안된 DisSR가 제 baselines와 비교하여 다양한 왜곡 조건에서 얼마나 잘 수행하는가?

주요 결과

  • 방법은 다양한 왜곡 조건에서 고품질의 복원 음성을 산출한다(저자들의 보고에 따라).
  • DisSR은 열화-사전 지침과 크로스 도메인 정렬 학습을 통해 일반화를 향상시킨다.
  • 프레임워크는 단일 모델 내에서 왜곡 추출과 도메인 적응성을 모두 다룬다.
  • 실험 결과는 교차 도메인 SR 작업에 대한 분리된 표현의 효과를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.