[논문 리뷰] The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN
이 논문은 음악 소스 분리용 Band-Split RNN(BSRNN)을 재현하고 재현 비용을 분석하며, 투명하고 에너지 의식이 있는 연구를 촉진하기 위해 코드와 사전 학습 모델을 공개한다.
Music source separation is the task of isolating the instrumental tracks from a music song. Despite its spectacular recent progress, the trend towards more complex architectures and training protocols exacerbates reproducibility issues. The band-split recurrent neural networks (BSRNN) model is promising in this regard, since it yields close to state-of-the-art results on public datasets, and requires reasonable resources for training. Unfortunately, it is not straightforward to reproduce since its full code is not available. In this paper, we attempt to replicate BSRNN as closely as possible to the original paper through extensive experiments, which allows us to conduct a critical reflection on this reproducibility issue. Our contributions are three-fold. First, this study yields several insights on the model design and training pipeline, which sheds light on potential future improvements. In particular, since we were unsuccessful in reproducing the original results, we explore additional variants that ultimately yield an optimized BSRNN model, whose performance largely improves that of the original. Second, we discuss reproducibility issues from both methodological and practical perspectives. We notably underline how substantial time and energy costs could have been saved upon availability of the full pipeline. Third, our code and pre-trained models are released publicly to foster reproducible research. We hope that this study will contribute to spread awareness on the importance of reproducible research in the music separation community, and help promoting more transparent and sustainable practices.
연구 동기 및 목표
- BSRNN 및 관련 MSS 모델을 MUSDB18-HQ에서 재현성 도전과제 평가.
- 재현 성능에 영향을 주는 설계, 훈련, 데이터 생성 요소 식별.
- 재현 결과와 원래 주장 간의 차이를 좁히기 위한 변형 제안 및 평가.
- 음악 소스 분리에서 재현 가능한 연구의 에너지 및 시간 비용 강조.
- 커뮤니티를 지원하기 위한 오픈 가능하고 실행 가능한 구현 및 사전 학습 모델 제공.
제안 방법
- 원래의 Band-Split RNN(BSRNN) 아키텍처 및 학습 파이프라인을 MUSDB18-HQ에서 가능한 한 밀접하게 재현.
- 성능 차이를 탐구하기 위한 변형(스테레오 모델링, 대체 계층, 자기 주의, 다중 헤드 메커니즘) 제안 및 구현.
- 제한된 컴퓨팅 하에서 소형 및 대형 모델 구성훈련; 유효 학습률에 맞추기 위한 훈련 하이퍼파라미터 조정.
- MUSDB18-HQ에서 utterance SDR(uSDR) 및 chunk SDR(cSDR)로 평가; CodeCarbon 및 Green Algorithms 추정치를 통한 에너지 소비 보고.
- 재현 가능한 연구 및 추가 실험을 가능하게 하기 위해 코드와 사전 학습 모델 공개.

실험 결과
연구 질문
- RQ1BSRNN을 MUSDB18-HQ에서 재현할 때의 핵심 재현성 장벽은 무엇인가?
- RQ2아키텍처 및 훈련 변형이 MSS 성능 및 재현 비용에 어떤 영향을 미치는가?
- RQ3타깃 변형을 통해 재현 결과와 원래 BSRNN 성능 간의 격차를 줄일 수 있는가?
- RQ4재현 가능한 MSS 연구를 추구하는 데 따른 에너지 및 시간의 함계는 무엇인가?
- RQ5오픈 실행 가능한 파이프라인을 제공하는 것이 재현성 및 커뮤니티 채택에 어떤 도움을 주는가?
주요 결과
| 모델 | 보컬 uSDR (dB) | 베이스 uSDR (dB) | 드럼 uSDR (dB) | 기타 uSDR (dB) | 평균 uSDR (dB) | 매개변수 (M) | 에너지 (codecarbon, kWh) | 에너지 (그린 알고리즘, kWh) |
|---|---|---|---|---|---|---|---|---|
| 베이스 모델: N=64, R=8 | 7.7 | 6.1 | 9.7 | 4.8 | 7.1 | 32.3 | 127 | 168 |
| 그래디언트 누적 | 8.0 | 5.8 | 9.6 | 4.9 | 7.1 | - | 129 | 170 |
| 손실로 모니터링 | 7.5 | 6.4 | 9.3 | 4.8 | 7.1 | - | 120 | 159 |
| 손실 도메인: 시간 | 7.9 | 6.1 | 9.4 | 4.9 | 7.2 | - | 116 | 153 |
| 손실 도메인: STFT | 7.9 | 6.4 | 9.6 | 4.9 | 7.2 | - | 131 | 173 |
| STFT: 창=4096, 보폭=1024 | 7.3 | 5.9 | 8.7 | 4.4 | 6.6 | 37.1 | 58 | 92 |
| 마스크 계수 μ=2 | 7.9 | 6.8 | 9.4 | 4.4 | 7.1 | 20.6 | 110 | 151 |
| 대형 모델: N=128, R=12 | 9.2 | 7.3 | 10.3 | 5.8 | 8.2 | 146.7 | 230 | 321 |
| 대형 모델과 patience=30 | 9.5 | 7.8 | 10.3 | 6.3 | 8.4 | - | 354 | 495 |
| 스테레오 네이브 | 7.7 | 6.6 | 8.4 | 4.0 | 6.7 | 37.1 | 78 | 122 |
| 네이브, μ=8 | 7.9 | 6.1 | 8.7 | 4.3 | 6.7 | 81.1 | 87 | 140 |
| TAC와 TanH | 7.6 | 6.0 | 9.6 | 4.3 | 6.8 | 34.7 | 117 | 154 |
| TAC와 PReLU | 7.9 | 6.5 | 10.0 | 4.7 | 7.3 | 34.7 | 128 | 167 |
| BSCNN | 7.3 | 5.9 | 9.0 | 4.2 | 6.6 | 29.7 | 113 | 153 |
| 주목 Na=1, Ea=8 | 7.7 | 7.4 | 10.4 | 4.8 | 7.6 | 33.0 | 151 | 199 |
| 주목 Na=2, Ea=16 | 8.2 | 7.7 | 10.4 | 4.9 | 7.8 | 33.2 | 157 | 224 |
| 다중 헤드: H=2 | 7.6 | 5.5 | 9.1 | 4.0 | 6.6 | 22.0 | 91 | 137 |
| 무음 타깃(모든 원천 대신) | 7.9 | 6.6 | 9.5 | 4.4 | 7.1 | 32.3 | 110 | 146 |
| SAD 없음; UMX 유사 증가 | 8.2 | 6.9 | 9.5 | 5.3 | 7.5 | - | 135 | 179 |
| 최적화 모델: TAC 포함 | 10.1 | 9.1 | 10.9 | 6.7 | 9.2 | 149.9 | 426 | 593 |
| + TAC | 10.2 | 10.2 | 11.3 | 6.9 | 9.6 | 164.1 | 508 | 711 |
- 원래 BSRNN 결과의 재현은 도전적이었으며, 여러 변형이 최초 보고를 넘어서는 상당한 성능 향상을 나타냈다.
- 스테레오 모델링, 자기 주의, 신중한 데이터 생성 선택은 MSS 성능 및 리소스 사용에 크게 영향을 줄 수 있다.
- TAC, 주의 메커니즘 및 더 큰 모델을 갖춘 최적화 변형은 기본 모델보다 더 높은 검증 uSDR을 달성했지만 에너지 비용 증가가 따라왔다.
- 다른 추론 및 평가 파이프라인(예: 구간 크기 및 중첩 추가 전략)은 보컬에서 약 0.3 dB까지 테스트 점수에 영향을 줄 수 있다.
- 코드와 사전 학습 모델의 공개는 재현의 장벽을 낮추고 더 에너지 의식적이고 투명한 MSS 연구를 촉진한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.