QUICK REVIEW

[논문 리뷰] SingSong: Generating musical accompaniments from singing

Chris Donahue, Antoine Caillon|arXiv (Cornell University)|2023. 01. 30.

Speech and Audio Processing참고 문헌 30인용 수 8

한 줄 요약

SingSong은 소스 분리된 보컬-악기 페어를 바탕으로 조건부 오디오 생성 모델을 학습시키고 AudioLM을 오디오-오디오 생성에 맞게 적응시켜 입력 보컬에 맞춘 반주 악기를 생성합니다. 이는 격리된 보컬에 대한 일반화성을 향상시키고 강력한 검색 기반 대비 청취자들의 선호를 얻습니다.

ABSTRACT

We present SingSong, a system that generates instrumental music to accompany input vocals, potentially offering musicians and non-musicians alike an intuitive new way to create music featuring their own voice. To accomplish this, we build on recent developments in musical source separation and audio generation. Specifically, we apply a state-of-the-art source separation algorithm to a large corpus of music audio to produce aligned pairs of vocals and instrumental sources. Then, we adapt AudioLM (Borsos et al., 2022) -- a state-of-the-art approach for unconditional audio generation -- to be suitable for conditional "audio-to-audio" generation tasks, and train it on the source-separated (vocal, instrumental) pairs. In a pairwise comparison with the same vocal inputs, listeners expressed a significant preference for instrumentals generated by SingSong compared to those from a strong retrieval baseline. Sound examples at https://g.co/magenta/singsong

연구 동기 및 목표

사람들이 직접 노래를 부르며 반주를 생성하게 함으로써 직관적인 음악 창작을 촉진한다.
최첨단 소스 분리를 활용해 학습용 보컬-악기 페어 데이터를 만든다.
무조건적 오디오 생성 모델(AudioLM)을 조건부 오디오-대-오디오 설정으로 적응시킨다.
소스 분리된 학습 데이터에서 실제 세계의 격리된 보컬로의 일반화 문제를 다룬다.
지각적 품질을 평가하고 생성 반주의 충실도와 일관성을 향상시키기 위한 가이드를 제공한다.

제안 방법

일반적으로 사용 가능한 소스 분리 알고리즘을 100만 곡에 적용해 보컬과 악기 소스를 정렬된 페어로 얻어 큰 규모의 데이터셋을 만든다.
소스 분리된 페어로 학습된 보컬을 주어진 반주를 생성하기 위해 조건부 오디오-오디오 프레이임워크로 AudioLM을 적응시킨다.
보컬 표현(의미적 코드와 거친 음향 코드)을 탐색하고 소스-아티팩트를 은폐하기 위해 노이즈를 도입해 일반화를 개선한다.
보컬 특징에서 악기적 의미적 코드와 거친 음향 코드를 매핑하는 시퀀스-투-시퀀스 모델(T5 기반 인코더-디코더)을 학습한 뒤 SoundStream을 통해 파형으로 디코딩한다.
보컬 특징에 조건화된 의미적 코드와 거친 코드 샘플링 등 다단계 생성 과정을 거친 후 거친-세밀한 음향 코드로 보정하고 파형으로 재구성한다; 생성된 반주를 입력 보컬과 혼합한다.
(featurization 전략(Noisy, SA-SA, S-SA 등)과 모델 규모(Base 대 XL) 실험을 통해 격리된 보컬에 대한 일반화를 최적화한다)

실험 결과

연구 질문

RQ1실시간으로 coherent한 반주를 생성하기 위해 보컬 입력에 조건화된 생성 모델이 가능한가?
RQ2학습에 소스 분리 데이터를 사용하면 실제 격리 보컬에 대한 오디오-오디오 반주 생성이 가능해지는가?
RQ3소스 분리 학습 데이터에서 격리 보컬 입력으로 일반화하는 데 가장 효과적인 보컬 조건화 특징은 무엇인가?
RQ4모델 규모와 특징화 선택이 반주 생성의 지각 품질 및 일반화 격차에 어떤 영향을 미치는가?
RQ5SingSong이 사람 청취자의 음악적 호환성 평가에서 검색 기반 기준선과 어떻게 비교되는가?

주요 결과

방법	FAD_i	FAD_s	델타
SA-SA	3.01	1.61	1.39
S-SA	2.31	1.14	1.17
SA-SA	2.01	1.64	0.37
A-A	3.41	3.30	0.11
SA-A	2.81	1.87	0.95
A-SA	2.01	1.65	0.36
S-SA	1.36	1.17	0.19
S-SA-XL	1.28	0.96	0.32

청취자들은 동일 보컬에 대해 SingSong 반주를 강력한 검색 기반 기준선보다 크게 선호했다.
가장 잘 작동하는 구성(Noisy / S-SA)은 격리된 보컬로의 일반화를 크게 향상시키며(naive AudioLM 적응 대비 FAD_i에서 상대적으로 약 55% 개선).
더 큰 모델(SingSong-XL)로 확장하면 기초 모델에 비해 청취 테스트에서 지각적 향상을 보인다.
보컬의 거친 음향 코드를 조건에서 제거(S-SA)하거나 보컬에 노이즈를 추가하면 일반화가 개선되고 학습이 안정화된다.
반주는 일반적으로 고정적 박자감/내용의 응집력이 더 강하고, 조화적 맥락(conditioning에서의 화성 맥)가 개선될 여지가 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.