QUICK REVIEW

[논문 리뷰] Guitar Effects Recognition and Parameter Estimation with Convolutional Neural Networks

Marco Comunità, Dan Stowell|arXiv (Cornell University)|2020. 12. 06.

Music and Audio Processing참고 문헌 36인용 수 12

한 줄 요약

이 논문은 전기 기타 연주에서 13종의 특정 기타 오버드라이브, 디스토션, 패드 플러그인을 분류하고 제어 파라미터(Gain, Tone)를 추정하기 위한 컨volution 신경망(CNN) 모델을 제안한다. 단일 또는 복합 음악적 구조를 가진 250시간 분량의 샘플 데이터셋(이산 또는 연속적 파라미터 설정 포함)을 활용하여, 분류 정확도가 80% 이상이며 대부분의 경우 평균 절대 오차(MAE)가 0.05 이하로 나타나, 이산적 파라미터 데이터셋이 설계 및 분석에 더 용이하면서도 연속적 데이터셋과 비교해도 성능에 떨어지지 않는다는 점을 입증한다.

ABSTRACT

Despite the popularity of guitar effects, there is very little existing research on classification and parameter estimation of specific plugins or effect units from guitar recordings. In this paper, convolutional neural networks were used for classification and parameter estimation for 13 overdrive, distortion and fuzz guitar effects. A novel dataset of processed electric guitar samples was assembled, with four sub-datasets consisting of monophonic or polyphonic samples and discrete or continuous settings values, for a total of about 250 hours of processed samples. Results were compared for networks trained and tested on the same or on a different sub-dataset. We found that discrete datasets could lead to equally high performance as continuous ones, whilst being easier to design, analyse and modify. Classification accuracy was above 80\%, with confusion matrices reflecting similarities in the effects timbre and circuits design. With parameter values between 0.0 and 1.0, the mean absolute error is in most cases below 0.05, while the root mean square error is below 0.1 in all cases but one.

연구 동기 및 목표

음성 녹음에서 특정 기타 페달 플러그인을 식별하고 그 파라미터를 추정할 수 있는 딥러닝 모델을 개발하는 것.
특히 비선형 오버드라이브, 디스토션, 패드 효과에 대한 특정 효과 유닛의 분류 및 파라미터 추정에 관한 연구 부족을 보완하는 것.
효과 인식 및 파라미터 추정 성능을 비교하기 위해 이산적 파라미터 설정과 연속적 파라미터 설정을 기반으로 학습한 모델 간의 성능을 분석하는 것.
이러한 모델의 강력한 훈련 및 평가를 지원하기 위한 대규모이고 다양한 처리된 전기 기타 샘플 데이터셋을 구축하는 것.
이산적/연속적 파라미터 설정 중 하나에서 훈련된 모델의 일반화 능력을 다른 설정에서 테스트함으로써 평가하는 것.

제안 방법

IDMT-SMT-Audio-Effects 데이터셋의 원본 녹음 자료를 활용하여, 13종의 인기 있는 기타 플러그인 에뮬레이션으로 처리한 250시간 분량의 전기 기타 샘플 데이터셋을 자체 제작하였다.
데이터셋은 단음(624개 노트) 및 다중음(420개 구간/코드) 샘플을 포함하며, 파라미터 설정은 이산적(예: 0.0, 0.2, 0.5, 0.8, 1.0) 또는 연속적(0.0에서 1.0 사이 균일 샘플링)으로 설정되었다.
분류 및 파라미터 추정에 모두 1D 컨volution 신경망(CNN) 아키텍처를 사용하였으며, 효과 유형 예측과 제어 파라미터 예측을 위한 별도의 헤드를 구현하였다.
모델은 네 가지 서브데이터셋(단음 이산, 단음 연속, 다중음 이산, 다중음 연속)에서 훈련 및 평가되었다.
손실 함수는 분류에 다중 분류 교차 엔트로피, 파라미터 추정에 평균 절대 오차(MAE)를 조합하였으며, 제어 값은 [0.0, 1.0] 범위로 정규화하였다.
일반화 능력을 평가하기 위해 한 서브데이터셋에서 훈련하고 다른 서브데이터셋에서 테스트하는 방식을 적용하였으며, 이는 이산-연속 간 상호 교차 평가(예: 이산에서 훈련, 연속에서 테스트)를 포함한다.

실험 결과

연구 질문

RQ1딥러닝 모델은 음성 녹음에서 13종의 특정 기타 오버드라이브, 디스토션, 패드 플러그인을 정확하게 분류할 수 있는가?
RQ2파라미터 추정 성능은 이산적 제어 설정과 연속적 제어 설정 간에 어떻게 다를까?
RQ3이산적 파라미터 값에서 훈련된 모델은 연속적 파라미터 추정에 잘 일반화되는가? 그 반대의 경우도 마찬가지인가?
RQ4다중음 대비 단음 입력이 분류 및 파라미터 추정 정확도에 어떤 영향을 미치는가?
RQ5모델 정확도, 설계 복잡도, 일반화 능력 측면에서 이산적 설정과 연속적 설정 간 성능 상충 관계가 존재하는가?

주요 결과

모든 서브데이터셋에서 분류 정확도가 80%를 초과하였으며, 혼동 행렬을 통해 효과 간 청각적 및 회로 기반 유사성이 반영되었다.
파라미터 추정 결과, 평균 절대 오차(MAE)는 16개 경우 중 12개에서 0.05 이하였고, 루트 평균 제곱 오차(RMSE)는 유일한 예외를 제외한 전부에서 0.1 이하였다.
가장 낮은 추정 오차는 다중음 샘플에서 훈련 및 테스트한 경우에 달성되었으며, 이는 코드나 구간의 음악적 내용이 모델 성능 향상에 기여함을 시사한다.
이산 설정에서 훈련된 모델는 연속 설정으로의 일반화 능력이 뛰어나 대부분의 제어 파라미터에서 MAE가 0.05 이하로 나타나, 이산 데이터셋이 실용적이고 타당한 선택임을 입증한다.
연속 설정에서 훈련된 모델는 특히 Gain 값이 0.5 이하인 영역에서 이산 설정 테스트 시 높은 분산과 왜곡을 보였으며, 이는 저감도 영역에서의 보간 문제에 기인함을 시사한다.
본 연구는 이산적 파라미터 데이터셋이 연속적 데이터셋과 비교해도 성능에 떨어지지 않음을 입증하였으며, 설계 용이성, 제어 용이성, 분석 용이성 측면에서 유리함을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.