QUICK REVIEW

[논문 리뷰] Voice Disorder Detection Using Long Short Term Memory (LSTM) Model

Vibhuti Gupta|arXiv (Cornell University)|2018. 01. 01.

Voice and Speech Disorders참고 문헌 1인용 수 8

한 줄 요약

이 논문은 음성 샘플에서 추출한 음성 특징을 사용하여 병리성 음성 장애를 자동으로 감지하기 위한 LSTM 기반 딥러닝 모델을 제안한다. 메르 주파수 체르스터 계수(MFCC), 스펙트럼 중심, 크로마, 스펙트럼 대비 특징(총 33개)을 결합하여 두 개의 은닉층(128 및 32개 뉴런)을 가진 LSTM을 훈련시켜 400개의 레이블이 없는 테스트 샘플에서 22%의 민감도, 97%의 특이도, 56%의 무게 없는 평균 재현율을 달성하였다.

ABSTRACT

Automated detection of voice disorders with computational methods is a recent research area in the medical domain since it requires a rigorous endoscopy for the accurate diagnosis. Efficient screening methods are required for the diagnosis of voice disorders so as to provide timely medical facilities in minimal resources. Detecting Voice disorder using computational methods is a challenging problem since audio data is continuous due to which extracting relevant features and applying machine learning is hard and unreliable. This paper proposes a Long short term memory model (LSTM) to detect pathological voice disorders and evaluates its performance in a real 400 testing samples without any labels. Different feature extraction methods are used to provide the best set of features before applying LSTM model for classification. The paper describes the approach and experiments that show promising results with 22% sensitivity, 97% specificity and 56% unweighted average recall.

연구 동기 및 목표

계산 모델을 사용하여 자동화되고 저비용이며 효율적인 음성 장애 감지 방법을 개발하기 위해.
시간이 오래 걸리고 비용이 많이 들며 진단을 지연시키는 전통적 내시경의 한계를 해결하기 위해.
원시 음성에서 병리성 음성 장애를 분류하는 데에 장기 단기 기억(LSTM) 네트워크의 효과성을 탐색하기 위해.
MFCC, 스펙트럼 중심, 크로마, 스펙트럼 대비와 같은 다양한 특징 추출 기법이 분류 정확도 향상에 미치는 영향을 평가하기 위해.
LSTM이 임상 스크리닝 응용 분야에서 음성 신호의 시간적 의존성을 효과적으로 모델링할 수 있음을 보여주기 위해.

제안 방법

입력은 FEMH 빅데이터 커플 챌린지에서 제공한 400개의 음성 샘플로 구성되며, 정상 50건과 병리성 150건(음성 부상, 종양, 음성마비 포함)이 포함되어 있다.
음성 특징은 네 가지 기법을 사용하여 추출된다: 13개의 MFCC, 1개의 스펙트럼 중심, 12개의 크로마 특징, 13개의 스펙트럼 대비 특징으로, 샘플당 총 33개의 특징이 생성된다.
두 개의 은닉층(128 및 32개 뉴런)과 하나의 출력층(정상, 음성 부상, 종양, 음성마비 4개 클래스)을 가진 LSTM 네트워크를 사용하여 분류를 수행한다.
모델는 Adam 옵timizer와 분류 교차 엔트로피 손실 함수를 사용하여 훈련되며, 수렴성을 평가하기 위해 500 및 5000 에포크로 실험을 수행한다.
특징 전처리에는 정규화와 22,050 Hz 샘플링 주파수에서 4초 간격으로 음성 데이터를 분할하는 절차가 포함되어 있다.
아키텍처는 순차적인 음성 데이터에서 장기적인 시간적 의존성을 효과적으로 포착할 수 있는 LSTM의 능력을 활용하여, 전통적인 기계학습 모델보다 분류 성능을 향상시킨다.

실험 결과

연구 질문

RQ1라벨이 부여된 임상 데이터에 의존하지 않고도 LSTM 모델이 원시 음성에서 병리성 음성 장애를 효과적으로 분류할 수 있는가?
RQ2MFCC, 스펙트럼 중심, 크로마, 스펙트럼 대비 특징의 다양한 조합이 LSTM 기반 음성 장애 감지 성능에 미치는 영향은 어떠한가?
RQ3LSTM을 사용한 음성 장애 감지에서 안정적이고 높은 성능의 분류를 달성하기 위해 최적의 훈련 에포크 수와 배치 크기는 얼마인가?
RQ4정상 음성과 병리성 음성 간의 구분에서, 모델의 민감도와 특이도가 다양한 음성 장애 유형에서 어떻게 비교되는가?
RQ5LSTM이 전통적인 기계학습 방법을 초월하여 음성 신호의 의미 있는 시간적 패턴을 얼마나 잘 학습할 수 있는가?

주요 결과

LSTM 모델은 정상 음성 샘플을 건강한 것으로 올바르게 식별하는 데 강력한 성능을 보이며, 97.1%의 특이도를 기록하였다.
민감도는 22%로, 실제 병리성 음성 사례 중 22%만이 정확히 감지되었음을 나타내며, 이는 이상치 사례에 대한 재현율 향상의 핵심적인 한계를 보여준다.
무게 없는 평균 재현율(UAR)은 56%에 도달하였으며, 이는 모든 클래스에서 균형 잡힌 성능을 반영하며, 훈련 에포크 수를 500에서 5000으로 늘린 후 향상된 성능이 관찰되었다.
모델는 민감도보다 특이도가 높은 편이었으며, 이는 장애를 진단하기보다는 거부하는 데 더 신뢰할 수 있음을 시사한다.
MFCC, 스펙트럼 중심, 크로마, 스펙트럼 대비 특징을 활용한 특징 추출은 강건한 33차원 입력 벡터를 구성하여 모델의 일반화 능력을 향상시켰다.
결과적으로 LSTM은 음성 장애 감지에 실현 가능한 접근법임을 보여주었으며, 민감도 향상을 위해 향후 하이퍼파rameter 튜닝과 데이터 증강이 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.