QUICK REVIEW

[논문 리뷰] Carnatic Raga Identification System using Rigorous Time-Delay Neural Network

Sanjay Natesan, Homayoon Beigi|arXiv (Cornell University)|2024. 01. 01.

Remote Sensing and Land Use인용 수 2

한 줄 요약

이 논문은 시간 지연 신경망(TDNN)과 장기 단기 기억(LSTM) 아키텍처를 융합한 딥러닝 시스템을 제안하며, 셰루티 변동성을 다루기 위해 주목력 메커니즘을 추가하여 칸타카르 라가 식별을 수행한다. 이 모델은 172개 라가에 걸쳐 676개의 녹음 데이터셋에서 검증 정확도 95.31%를 달성하여 이전 연구에 비해 규모와 복잡도 면에서 크게 발전시켰다.

ABSTRACT

Large scale machine learning-based Raga identification continues to be a nontrivial issue in the computational aspects behind Carnatic music. Each raga consists of many unique and intrinsic melodic patterns that can be used to easily identify them from others. These ragas can also then be used to cluster songs within the same raga, as well as identify songs in other closely related ragas. In this case, the input sound is analyzed using a combination of steps including using a Discrete Fourier transformation and using Triangular Filtering to create custom bins of possible notes, extracting features from the presence of particular notes or lack thereof. Using a combination of Neural Networks including 1D Convolutional Neural Networks conventionally known as Time-Delay Neural Networks) and Long Short-Term Memory (LSTM), which are a form of Recurrent Neural Networks, the backbone of the classification strategy to build the model can be created. In addition, to help with variations in shruti, a long-time attention-based mechanism will be implemented to determine the relative changes in frequency rather than the absolute differences. This will provide a much more meaningful data point when training audio clips in different shrutis. To evaluate the accuracy of the classifier, a dataset of 676 recordings is used. The songs are distributed across the list of ragas. The goal of this program is to be able to effectively and efficiently label a much wider range of audio clips in more shrutis, ragas, and with more background noise.

연구 동기 및 목표

다양한 라가, 셰루티, 연주 스타일을 감안한 확장 가능하고 정확한 기계 학습 시스템을 개발하기 위해.
절대 값이 아닌 상대 주파수 이동을 모델링하여 라가 식별에서 셰루티 변동성 문제를 해결하기 위해.
기존의 72개 멜라카르타 라가를 넘어서 제냐 라가와 더 넓은 범위의 음악 샘플을 포함한 라가 식별 시스템을 확장하기 위해.
고도화된 특징 추출 및 주목력 메커니즘을 통해 잡음이 많거나 다양한 음성 조건에서도 일반화 능력과 강건성을 향상시키기 위해.
칸타카르 음악에서 대규모 음악 정보 검색에 적합한 계산 효율성과 정확도를 갖춘 모델을 만들기 위해.

제안 방법

시스템은 스펙트럼 특징 추출 후, 1차원 컨volutional 신경망(TDNN)을 사용하여 음성 신호에서 국소적인 멜로디 패턴을 추출한다.
스펙트럼 특징는 이산 푸리에 변환(DFT)과 삼각형 필터 밴드를 사용하여 청각적으로 관련성이 있는 주파수 대역을 모델링한다.
LSTM 네트워크는 멜로디 윤곽과 가마카 효과의 시간적 의존성을 모델링하기 위해 순차적 패턴을 처리한다.
주목력 기반 메커니즘이 상대 주파수 이동에 집중하여, 연주 간 셰루티 변동성에 대한 강건성을 향상시킨다.
모델는 categorical cross-entropy 손실과 Adam 옵timizer를 사용하여 학습되며, 과적합을 방지하기 위해 조기 정지 기법을 적용한다.
데이터 전처리는 일반화를 향상시키기 위해 정규화 및 증강을 포함한다.

실험 결과

연구 질문

RQ1주목력 메커니즘을 갖춘 하이브리드 TDNN-LSTM 모델이 제냐 라가를 포함한 광범위한 칸타카르 라가에서 고정확도의 라가 식별을 달성할 수 있는가?
RQ2절대 주파수 대신 상대 주파수 이동을 모델링하면 라가 식별에서 셰루티 변동성에 대해 얼마나 강건한가?
RQ3학습 데이터가 라가당 제한된 경우, 딥러닝 모델이 표준 72개 멜라카르타 라가를 초월해 일반화할 수 있는 정도는 어느 정도인가?
RQ4가마카 패턴의 포함 여부가 엔드 투 엔드 라가 분류 모델의 성능에 어떤 영향을 미치는가?
RQ5데이터셋의 크기와 다양성이 라가 식별 작업에서 모델의 일반화 능력과 정확도에 어떤 영향을 미치는가?

주요 결과

모델는 172개의 서로 다른 라가(멜라카르타 및 제냐 라가 포함)를 포함한 676개 녹음 데이터셋에서 검증 정확도 95.31%를 달성했다.
학습 과정은 효율적으로 수렴하였으며, 검증 손실이 정체되면서 조기 정지로 132 에포크 만에 종료되어 효과적인 정규화를 보여주었다.
모델의 검증 손실은 0.3544로 初기 손실보다 현저히 낮아, 높은 복잡도와 데이터셋의 다양성에도 불구하고 효과적인 학습을 이룬 것을 보여주었다.
학습 정확도는 99.57%에 도달하였고, 검증 정확도와의 격차는 4.26%에 불과하여, 많은 클래스와 복잡한 패턴에도 불구하고 과적합이 최소화됨을 시사했다.
이 시스템은 많은 이전 최첨단 방법보다 성능이 뛰어나거나 동등하며, 이는 많은 이전 연구들이 다룬 데이터셋보다 200배 이상 큰 데이터셋을 기반으로 하였기 때문이다.
주목력 메커니즘이 상대 피치 변동을 효과적으로 포착하여, 연주 간 셰루티 차이에 대한 강건성을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.