Skip to main content
QUICK REVIEW

[논문 리뷰] Tutti: Expressive Multi-Singer Synthesis via Structure-Level Timbre Control and Vocal Texture Modeling

Jiatao Chen, Xing Tang|arXiv (Cornell University)|2026. 02. 09.
Music Technology and Sound Studies인용 수 0
한 줄 요약

Tutti는 한 곡 내에서 구조를 인식하는 싱어 프롬프트와 텍스처 모델링을 사용하여 동적 싱어 스케줄링과 합창에서의 현실적인 보컬 텍스처를 가능하게 하는 단일 노래 내 구조화된 다성 가수 생성의 통합 프레임워크입니다.

ABSTRACT

While existing Singing Voice Synthesis systems achieve high-fidelity solo performances, they are constrained by global timbre control, failing to address dynamic multi-singer arrangement and vocal texture within a single song. To address this, we propose Tutti, a unified framework designed for structured multi-singer generation. Specifically, we introduce a Structure-Aware Singer Prompt to enable flexible singer scheduling evolving with musical structure, and propose Complementary Texture Learning via Condition-Guided VAE to capture implicit acoustic textures (e.g., spatial reverberation and spectral fusion) that are complementary to explicit controls. Experiments demonstrate that Tutti excels in precise multi-singer scheduling and significantly enhances the acoustic realism of choral generation, offering a novel paradigm for complex multi-singer arrangement. Audio samples are available at https://annoauth123-ctrl.github.io/Tutii_Demo/.

연구 동기 및 목표

  • 솔리스트 패러다임을 넘어 하나의 곡 안에서 동적 다성 가수 배열을 가능하게 한다.
  • 음악 구조(verse/chorus)에 따라 가수를 배치하기 위한 구조 인식 프롬프트 시스템을 개발한다.
  • 명시적 제어가 놓치는 암시적 보컬 텍스처(공간적 잔향, 스펙트럴 융합)를 텍스처 학습 모듈을 통해 포착한다.

제안 방법

  • DiT 기반 잠재 확산 백본과 Vocal VAE를 사용하여 다성 가수 파형을 생성한다.
  • 구조 인식 가수 프롬프트와 Adaptive Singer Prompt Fuser를 도입하여 음악 구간별로 다성 가수 임베딩을 유연하게 결합한다.
  • 조건 안내 VAE를 통해 참조 오디오에서 보완적 텍스처 특성을 추출하여 암시적 보컬 텍스처를 모델링한다.
  • 다중 조건 하에서 디노이징 속도장을 학습하기 위한 조건부 플로우 매칭 목표로 학습한다.
  • 잠재 프레임 속도에서 연속 및 이산 조건의 융합을 수행한다.
  • 구조 가이드 SongPrep와 CAM++ 기반 가수 임베딩 클러스터링을 활용하여 가수 스케줄링을 결정한다.

실험 결과

연구 질문

  • RQ1음악 구조에 의해 가이드된 하나의 곡에서 다성 가수 스케줄링을 어떻게 제어할 수 있는가?
  • RQ2명시적 제어(가사, 구조, 가수 정체성)가 암시적 보컬 텍스처로 보완되어 실감을 향상시킬 수 있는가?
  • RQ3적응적 다성 가수 융합이 합창 합성에서 음색 구별성과 가사 이해도에 어떤 영향을 미치는가?
  • RQ4텍스처 가이드 VAE가 순수한 명시적 컨디셔닝과 비교하여 음향적 실현성에 어떻게 기여하는가?

주요 결과

  • Tutti는 정밀한 구조 인식 스케줄링으로 동적 다성 가수 배열을 가능하게 하며 다성 가수 지표에서 기준선보다 우수하다.
  • 보컬 텍스처 학습은 텍스처 큐가 포함될 때 멜로디 성능과 지각 지표에서 상당한 향상을 보이며 음향 현실감을 개선한다.
  • Adaptive Singer Prompt Fuser는 가수 정체성을 보존하면서 리드/하모니 상호작용을 일관되게 가능하게 하여 선형 융합 방법보다 우수하다.
  • 객관적 지표에서 Tutti는 다성 가수 상황에서 Vevo2보다 SIM이 높고 WER이 낮으며, 주관적 MOS 점수는 Tutti가 더 높다.
  • 텍스처 또는 적응식 퓨저를 제거하면 멜로디, 음색 구별성, 가사 이해도가 저하된다는 애블레이션 결과가 나타난다.
  • 시각화 결과는 솔로 대 합창의 명확한 피치 패턴과 더 풍부한 합창 스펙트럴 콘텐츠를 확인시켜 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.