QUICK REVIEW

[논문 리뷰] Aphasic Speech Recognition using a Mixture of Speech Intelligibility Experts

Matthew Perez, Zakaria Aldeneh|arXiv (Cornell University)|2020. 08. 24.

Speech Recognition and Synthesis참고 문헌 30인용 수 14

한 줄 요약

이 논문은 약한 말하기 이해도를 가지는 뇌졸중 환자의 말을 인식하기 위해, 중증도 기반 전문가를 통해 말의 이해도를 명시적으로 모델링하는 믹스처 오브 응용(MoE) 음성 모델을 제안한다. 테스트 시점에 환자의 중증도를 추정하는 말 이해도 검출기(SID)가 전문가 기여도를 동적으로 가중하여, 일괄적인 기준 모델 대비 상당한 성능 향상을 이룩하였으며, 특히 중증 뇌졸중 환자에서 두드러진 성능 향상을 보였다.

ABSTRACT

Robust speech recognition is a key prerequisite for semantic feature extraction in automatic aphasic speech analysis. However, standard one-size-fits-all automatic speech recognition models perform poorly when applied to aphasic speech. One reason for this is the wide range of speech intelligibility due to different levels of severity (i.e., higher severity lends itself to less intelligible speech). To address this, we propose a novel acoustic model based on a mixture of experts (MoE), which handles the varying intelligibility stages present in aphasic speech by explicitly defining severity-based experts. At test time, the contribution of each expert is decided by estimating speech intelligibility with a speech intelligibility detector (SID). We show that our proposed approach significantly reduces phone error rates across all severity stages in aphasic speech compared to a baseline approach that does not incorporate severity information into the modeling process.

연구 동기 및 목표

뇌졸중 환자 말의 낮은 이해도와 높은 화자 변동성으로 인해 저하되는 자동 음성 인식(ASR)의 강인성을 향상시키기 위해.
뇌졸중 환자 말의 데이터 부족 및 변동성을 해결하기 위해 음성 이해도를 음성 모델 내에서 명시적으로 모델링하기 위해.
장애 있는 말 인식에서 전통적인 일괄 모델 대비 중증도 인식 전문가 모델링이 우수한 성능을 내는지 조사하기 위해.
저자원 뇌졸중 환자 말 환경에서 데이터 할당 전략(예: Solo + Neighbor)이 MoE 성능에 미치는 영향을 평가하기 위해.
가청 신경 기반 SID가 MoE 프레임워크 내에서 전문가 기여도를 안내하는 데 효과적인지 평가하기 위해.

제안 방법

MoE 음성 모델은 건강, 경증, 중증, 중증 뇌졸중 환자 중 각각 특정 중증도 수준에 맞춰 전문화된 4개의 전문가를 사용한다.
말 이해도 검출기(SID)는 fMLLR 및 x-vector 특징을 사용하여 프레임 수준 또는 문장 수준에서 중증도 수준을 예측하도록 훈련된다.
테스트 시점에 SID의 소프트 확률(즉, 주의 메커니즘 유사 가중치)을 사용하여 전문가 기여도를 동적으로 가중하고, senone 사후 확률을 통합한다.
공유된 트렁크 레이어를 통해 일반 음성 특징을 추출한 후, 이를 중증도 기반 전문가로 라우팅한다.
데이터 할당 전략은 'Solo'(해당 중증도 수준 전용으로 훈련)와 'Solo + Neighbor'(해당 수준과 인접한 중증도 수준까지 포함하여 훈련)를 포함하며, 후자가 더 우수한 일반화 성능을 보였다.
SID는 화자 수준의 AQ 점수를 기반으로 중증도를 예측하도록 분류적으로 훈련되었으며, 혼동 행렬을 통해 성능을 평가하였다.

실험 결과

연구 질문

RQ1중증도 기반 전문가를 통해 말 이해도를 모델링하면, 일괄 모델 대비 뇌졸중 환자 말의 자세 인식 성능이 향상되는가?
RQ2저자원 뇌졸중 환자 말 환경에서 데이터 할당 전략(예: Solo 대비 Solo + Neighbor) 선택이 MoE 성능에 어떤 영향을 미치는가?
RQ3프레임 수준 또는 문장 수준에서 중증도를 예측하는 학습 가능한 신경 기반 SID가 오라클 SID보다 MoE 성능을 향상시키는가?
RQ4화자 수준의 AQ 점수가 불완전한 점이 SID 및 MoE 시스템의 효과성에 얼마나 제한을 둔다?
RQ5신경 기반 SID가 MoE 프레임워크에서 오라클 SID를 초월할 수 있는가? 이는 프레임 수준의 이해도와 화자 수준의 이해도 중 어느 것이 더 관련성이 있는지를 시사하는가?

주요 결과

훈련된 신경 기반 SID(SIDutt)를 갖춘 MoE 모델은 기준 모델 대비 전체 말자세 오류율(PER)에서 2.9% 상대적 향상을 달성했으며, 경증, 중증, 중증 뇌졸중 환자에서 각각 3.3%, 2.0%, 5.6% 향상되었다.
'Solo + Neighbor' 데이터 할당 전략은 'Solo' 및 'Solo + Healthy' 전략보다 유의미하게 뛰어난 성능을 보였으며, 이는 인접한 중증도 수준 간 데이터 공유가 데이터 부족 문제를 완화함을 시사한다.
SID의 성능이 불완전함(예: 인접한 중증도 수준 간 혼동)에도 불구하고, 여전히 기준 모델 대비 성능 향상을 이룩했으며, 이는 조잡한 이해도 추정치조차도 전문가 라우팅을 효과적으로 안내할 수 있음을 시사한다.
신경 기반 SID를 사용한 MoE 모델이 오라클 SID를 사용한 동일한 모델보다 우수한 성능을 보였으며, 이는 프레임 수준 또는 문장 수준의 이해도 정보가 화자 수준의 AQ 점수보다 더 유용할 수 있음을 시사한다.
프레임 수준 SID의 혼동 행렬은 AQ가 레이블로 사용되며 제한이 있음에도 불구하고, 특히 인접한 중증도 수준 간 이해도 추세를 인식하는 데 성공했다.
결과적으로, MoE와 학습 가능한 SID를 통해 말 이해도를 명시적으로 모델링하면 모든 중증도 수준에서 강인한 성능 향상이 이루어지며, 특히 성능 향상이 가장 큰 중증 뇌졸중 환자에서 두드러진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.