QUICK REVIEW

[논문 리뷰] Tutti: Expressive Multi-Singer Synthesis via Structure-Level Timbre Control and Vocal Texture Modeling

Jiatao Chen, Xing Tang|arXiv (Cornell University)|2026. 02. 09.

Music Technology and Sound Studies인용 수 0

한 줄 요약

Tutti는 한 곡 내에서 구조를 인식하는 싱어 프롬프트와 텍스처 모델링을 사용하여 동적 싱어 스케줄링과 합창에서의 현실적인 보컬 텍스처를 가능하게 하는 단일 노래 내 구조화된 다성 가수 생성의 통합 프레임워크입니다.

ABSTRACT

While existing Singing Voice Synthesis systems achieve high-fidelity solo performances, they are constrained by global timbre control, failing to address dynamic multi-singer arrangement and vocal texture within a single song. To address this, we propose Tutti, a unified framework designed for structured multi-singer generation. Specifically, we introduce a Structure-Aware Singer Prompt to enable flexible singer scheduling evolving with musical structure, and propose Complementary Texture Learning via Condition-Guided VAE to capture implicit acoustic textures (e.g., spatial reverberation and spectral fusion) that are complementary to explicit controls. Experiments demonstrate that Tutti excels in precise multi-singer scheduling and significantly enhances the acoustic realism of choral generation, offering a novel paradigm for complex multi-singer arrangement. Audio samples are available at https://annoauth123-ctrl.github.io/Tutii_Demo/.

연구 동기 및 목표

솔리스트 패러다임을 넘어 하나의 곡 안에서 동적 다성 가수 배열을 가능하게 한다.
음악 구조(verse/chorus)에 따라 가수를 배치하기 위한 구조 인식 프롬프트 시스템을 개발한다.
명시적 제어가 놓치는 암시적 보컬 텍스처(공간적 잔향, 스펙트럴 융합)를 텍스처 학습 모듈을 통해 포착한다.

제안 방법

DiT 기반 잠재 확산 백본과 Vocal VAE를 사용하여 다성 가수 파형을 생성한다.
구조 인식 가수 프롬프트와 Adaptive Singer Prompt Fuser를 도입하여 음악 구간별로 다성 가수 임베딩을 유연하게 결합한다.
조건 안내 VAE를 통해 참조 오디오에서 보완적 텍스처 특성을 추출하여 암시적 보컬 텍스처를 모델링한다.
다중 조건 하에서 디노이징 속도장을 학습하기 위한 조건부 플로우 매칭 목표로 학습한다.
잠재 프레임 속도에서 연속 및 이산 조건의 융합을 수행한다.
구조 가이드 SongPrep와 CAM++ 기반 가수 임베딩 클러스터링을 활용하여 가수 스케줄링을 결정한다.

실험 결과

연구 질문

RQ1음악 구조에 의해 가이드된 하나의 곡에서 다성 가수 스케줄링을 어떻게 제어할 수 있는가?
RQ2명시적 제어(가사, 구조, 가수 정체성)가 암시적 보컬 텍스처로 보완되어 실감을 향상시킬 수 있는가?
RQ3적응적 다성 가수 융합이 합창 합성에서 음색 구별성과 가사 이해도에 어떤 영향을 미치는가?
RQ4텍스처 가이드 VAE가 순수한 명시적 컨디셔닝과 비교하여 음향적 실현성에 어떻게 기여하는가?

주요 결과

Tutti는 정밀한 구조 인식 스케줄링으로 동적 다성 가수 배열을 가능하게 하며 다성 가수 지표에서 기준선보다 우수하다.
보컬 텍스처 학습은 텍스처 큐가 포함될 때 멜로디 성능과 지각 지표에서 상당한 향상을 보이며 음향 현실감을 개선한다.
Adaptive Singer Prompt Fuser는 가수 정체성을 보존하면서 리드/하모니 상호작용을 일관되게 가능하게 하여 선형 융합 방법보다 우수하다.
객관적 지표에서 Tutti는 다성 가수 상황에서 Vevo2보다 SIM이 높고 WER이 낮으며, 주관적 MOS 점수는 Tutti가 더 높다.
텍스처 또는 적응식 퓨저를 제거하면 멜로디, 음색 구별성, 가사 이해도가 저하된다는 애블레이션 결과가 나타난다.
시각화 결과는 솔로 대 합창의 명확한 피치 패턴과 더 풍부한 합창 스펙트럴 콘텐츠를 확인시켜 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.