QUICK REVIEW

[논문 리뷰] Phoneme-Based Persian Speech Recognition

Saber Malekzadeh|arXiv (Cornell University)|2018. 01. 01.

Speech Recognition and Synthesis인용 수 1

한 줄 요약

이 논문은 단기 푸리에 변환(STFT)에서 유도된 스펙트로그램 특징과 분류를 위한 딥 네트워크를 사용하여 페르시아어 음소 인식을 위한 딥 러닝 기반 접근법을 제안한다. 시스템은 페르시아어 음성 샘플을 이음소리로 처리하고, 스펙트로그램 특징 추출을 위해 STFT를 적용하며, 이러한 특징으로 딥 네트워크를 훈련시켜 미리 보지 않은 테스트 데이터에서 효과적인 음소 인식을 달성한다.

ABSTRACT

Undoubtedly, one of the most important issues in computer science is intelligent speech recognition. In these systems, computers try to detect and respond to the speeches they are listening to, like humans. In this research, presenting of a suitable method for the diagnosis of Persian phonemes by AI using the signal processing and classification algorithms have tried. For this purpose, the STFT algorithm has been used to process the audio signals, as well as to detect and classify the signals processed by the deep artificial neural network. At first, educational samples were provided as two phonological phrases in Persian language and then signal processing operations were performed on them. Then the results for the data training have been given to the artificial deep neural network. At the final stage, the experiment was conducted on new sounds.

연구 동기 및 목표

페르시아어 언어에 맞춤형으로 설계된 지능형 음성 인식 시스템을 개발하기 위해.
딥 러닝을 활용하여 페르시아어에서 자원이 적은 음소 인식 문제를 해결하기 위해.
신호 처리와 신경망을 사용하여 페르시아어 음소 인식의 정확도와 강인성을 향상시키기 위해.
말하는 페르시아어에서 자동 음소 탐지에 대한 훈련 가능하고 종단 간(end-to-end) 시스템을 구축하기 위해.

제안 방법

연구는 원시 음성 신호를 스펙트로그램 표현으로 변환하기 위해 단기 푸리에 변환(STFT)을 사용한다.
훈련을 위한 표준화된 입력을 확보하기 위해 페르시아어에서 두 음소로 구성된 이음소리로 음성 샘플을 준비한다.
STFT를 통해 추출된 스펙트럼 특징을 딥 피드포워드 신경망의 입력으로 사용한다.
딥 네트워크는 역전파와 오차 역전파를 사용하여 분류를 위해 훈련된다.
일반화 성능를 테스트하기 위해 모델은 미리 보지 않은 음성 샘플로 평가된다.
멜 주파수 cepstrum 계수(MFCCs)는 관련 특징 세트로 언급되지만, 주요 방법에서는 사용되지 않는다.

실험 결과

연구 질문

RQ1STFT에서 유도된 스펙트로그램을 기반으로 훈련된 딥 네트워크가 페르시아어 음소를 효과적으로 분류할 수 있는가?
RQ2STFT와 딥 러닝의 조합이 페르시아어에서 음소 인식 정확도를 어떻게 향상시키는가?
RQ3시스템은 새로운, 미리 보지 않은 페르시아어 음성 샘플에서 어떤 성능을 보이는가?
RQ4이음소리 형식이 두 음소로 구성된 것은 훈련의 안정성과 인식 정확도를 얼마나 향상시키는가?

주요 결과

제안된 시스템은 STFT 기반 스펙트로그램과 딥 네트워크를 사용하여 페르시아어 음소를 성공적으로 인식한다.
모델은 새로운, 미리 보지 않은 음성 샘플로 일반화하는 데 잘 성공하여 실제 환경 조건에서의 강인성을 보여준다.
신호 처리(STFT)와 딥 러닝의 통합은 정확한 음소 분류를 가능하게 한다.
훈련 샘플로 두 음소로 구성된 이음소리를 사용함으로써 훈련의 일관성과 모델 수렴성이 향상된다.
딥 러닝을 활용한 자원이 적은 페르시아어 음성 인식 과업의 실현 가능성을 시스템이 입증한다.
구체적인 정확도 지표는 보고되지 않았지만, 새로운 음성 입력에서의 성공적인 테스트를 통해 방법이 검증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.