[논문 리뷰] DALI: a large Dataset of synchronized Audio, LyrIcs and notes, automatically created using teacher-student machine learning paradigm
DALI는 시간 정렬된 보컬과 가사를 갖춘 5358곡의 대규모 다중 모달 데이터셋을 자동으로 생성하는 반복적 교사-학생 학습 프레임워크를 통해 Singing Voice Detection 및 오디오-가사 정렬을 향상시키는 데이터셋을 도입합니다.
The goal of this paper is twofold. First, we introduce DALI, a large and rich multimodal dataset containing 5358 audio tracks with their time-aligned vocal melody notes and lyrics at four levels of granularity. The second goal is to explain our methodology where dataset creation and learning models interact using a teacher-student machine learning paradigm that benefits each other. We start with a set of manual annotations of draft time-aligned lyrics and notes made by non-expert users of Karaoke games. This set comes without audio. Therefore, we need to find the corresponding audio and adapt the annotations to it. To that end, we retrieve audio candidates from the Web. Each candidate is then turned into a singing-voice probability over time using a teacher, a deep convolutional neural network singing-voice detection system (SVD), trained on cleaned data. Comparing the time-aligned lyrics and the singing-voice probability, we detect matches and update the time-alignment lyrics accordingly. From this, we obtain new audio sets. They are then used to train new SVD students used to perform again the above comparison. The process could be repeated iteratively. We show that this allows to progressively improve the performances of our SVD and get better audio-matching and alignment.
연구 동기 및 목표
- 동일시된 오디오, 가사, 보컬 멜로디 노트를 네 수준의 가사 상세도로 포함한 크고 공개적으로 이용 가능한 다중 모달 데이터셋을 제공한다.
- Singing Voice Detection (SVD) 및 오디오 주석 정렬을 개선하는 반복적 교사-학생 학습 프레임워크를 설명한다.
- 가능하지 않더라도 더 큰 규모의 학습 데이터를 교사-학생 학습을 통해 활용하는 것이 크로스-데이터셋 일반화를 향상시킴을 보여준다.
- 자동 후보 오디오 검색 및 정렬이 MIR 연구를 위한 데이터셋 생성을 확장하는 방법을 시연한다.
제안 방법
- 수작업으로 만든 Karaoke 기반 주석(시간, 음표, 텍스트)을 정확한 오디오 버전 없이 수집한다.
- WASABI 연결된 곡 정보와 YouTube에서 후보 오디오 트랙을 검색하고 NCC를 사용해 주석 음성 시퀀스와 합성 음성 시퀀스를 일치시켜 최적의 일치를 선택한다.
- 레이블된 데이터로 트레이닝된 ConvNet 기반 SVD 시스템으로 보컬 가능도(p)를 계산하고, NCC를 통해 오프셋 o와 프레임 속도 fr를 최적화하고 브루트포스 프르 검색으로 정렬하여 주석과의 정렬을 수행한다.
- 더 큰 매칭 집합에서 '학생' SVD를 반복적으로 학습시켜 p̂(t)를 개선하고 데이터셋을 재확대하여 교사-학생 루프를 형성하고 정렬 품질을 향상시킨다.
실험 결과
연구 질문
- RQ1 karaoke 주석 및 웹 오디오 후보로부터 동기화된 오디오, 가사, 노트를 자동으로 구성한 대규모 다중 모달 데이터셋을 생성할 수 있는가?
- RQ2교사-학생 학습 패러다임이 단일 패스 시스템보다 Singing Voice Detection 및 정렬 품질을 향상시키는가?
- RQ3불완전하고 대규모 데이터로 학습된 SVD 모델의 크로스-데이터셋 일반화는 작고 고품질 라벨 데이터에 비해 어떻게 나타나는가?
- RQ4향상된 SVD가 DALI 데이터셋의 크기와 품질에 미치는 영향은 무엇인가?
주요 결과
| SVD 시스템 | Test_set | J_test (16) | M_test (36) |
|---|---|---|---|
| Teacher_J_train (61) | J_test | 87% | 82% |
| Student (Teacher_J_train) (2673) | J_test | 82% | 82% |
| Teacher_M_train (98) | M_test | 76% | 85% |
| Student (Teacher_M_train) (1596) | M_test | 80% | 84% |
| Teacher_J+M_train (159) | J_test | 82% | 82% |
| Student (teacher_J+M_train) (2440) | J_test | 86% | 87% |
- DALI에는 전체 오디오와 시간 정렬 가사 및 보컬 음표가 네 가지 상세 수준으로 포함된 5358곡이 포함되어 있다.
- ConvNet 기반의 보컬 탐지기(교사)가 주석 음성 시퀀스(avs)와의 교차상관을 최대화하여 오디오 후보를 선택한다.
- 교사-학생 실험에서 학생들이 일반적으로 교사보다 크로스-데이터셋 테스트에서 더 뛰어난 성능을 보인다(예: Jamendo와 MedleyDB).
- 크로스-데이터셋 평가에서 한 교사의 출력으로 학습된 학생들이 다른 데이터셋에서 더 높은 프레임 정확도를 달성할 수 있음을 보여준다(예: J_test와 M_test에서 각각 86.5%)).
- 이 맥락에서 딥 러닝에 대해 더 큰 불완전한 데이터를 사용하는 데이터셋 생성 접근 방식이 작은 완전한 데이터보다 이점이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.