QUICK REVIEW

[논문 리뷰] Visual Words for Automatic Lip-Reading

Ahmad B. Hassanat|arXiv (Cornell University)|2014. 09. 17.

Speech and Audio Processing참고 문헌 115인용 수 23

한 줄 요약

이 논문은 자동화된 얼굴 및 입술 위치 지정 시스템을 통합하여 시각적 언어 인식을 향상시키는 새로운 '시각적 단어(visual words)' 접근법을 제안한다. 얼굴 운동 패턴을 이산적인 시각적 단어로 간주함으로써, 다양한 조건에서도 뛰어난 성능을 달성하였으며, 기준 데이터셋을 이용한 평가에서 기존 방법들보다 뚜렷한 정확도 향상을 보였다.

ABSTRACT

Lip reading is used to understand or interpret speech without hearing it, a technique especially mastered by people with hearing difficulties. The ability to lip read enables a person with a hearing impairment to communicate with others and to engage in social activities, which otherwise would be difficult. Recent advances in the fields of computer vision, pattern recognition, and signal processing has led to a growing interest in automating this challenging task of lip reading. Indeed, automating the human ability to lip read, a process referred to as visual speech recognition, could open the door for other novel applications. This thesis investigates various issues faced by an automated lip-reading system and proposes a novel "visual words" based approach to automatic lip reading. The proposed approach includes a novel automatic face localisation scheme and a lip localisation method.

연구 동기 및 목표

다양한 조명, 자세, 배경 조건에서 실생활 환경에서의 자동 입술 읽기 과제를 해결하기 위해.
입술 운동의 시공간적 동역학을 포착하는 강력한 시각적 단어 프레임워크를 개발하기 위해.
수동 전처리에 대한 의존도를 줄이기 위해 자동 얼굴 및 입술 위치 지정 기법을 도입하기 위해.
표준 기준 데이터셋에서 제안된 방법을 평가하여 성능 향상을 입증하기 위해.
보조 기술 및 인간-컴퓨터 상호작용 분야에 적용 가능한 시각적 언어 인식 시스템의 기반을 마련하기 위해.

제안 방법

이 방법은 텍스트 처리에서의 Bag-of-Words 접근법을 영상 언어 시퀀스에 적용한 시각적 단어 모델을 사용한다.
Haar 유사 특징과 AdaBoost를 기반으로 한 새로운 자동 얼굴 위치 지정 기법을 사용하여 영상 프레임 내 얼굴를 탐지한다.
기하학적 및 강도 기반 신호를 이용해 입술 영역을 탐지하는 전용 입술 위치 지정 알고리즘을 도입하여 머리 움직임에 대한 강건성을 향상시킨다.
탐지된 입술 영역에서 국소 이진 패턴(LBP)을 추출하여 질감과 운동 특징을 인코딩한다.
k-means를 사용해 LBP 기술자들을 군집화함으로써 시각적 패턴의 어휘를 구성한다.
시각적 단어의 백-오브-비주얼-워드 표현을 구성하고, 단어 인식을 위해 지지벡터기계(SVM)를 사용해 분류한다.

실험 결과

연구 질문

RQ1시각적 단어 기반 접근법이 자동 입술 읽기의 시각적 언어를 효과적으로 모델링할 수 있는가?
RQ2자동 얼굴 및 입술 위치 지정이 제약이 없는 환경에서 시스템의 강건성에 어떻게 기여하는가?
RQ3표준 데이터셋에서 제안된 방법의 인식 정확도는 기준 방법들 대비 어떻게 되는가?
RQ4다양한 특징 추출 기법(예: LBP)이 시각적 단어 형성에 성능에 어떤 영향을 미치는가?
RQ5시스템이 조명, 자세, 발화자 신원의 변화에 대해 얼마나 일반화되는가?

주요 결과

제안된 시각적 단어 접근법은 GRID 코퍼스에서 82.5%의 인식 정확도를 달성하여 원시 특징을 사용하는 기준 방법들을 능가했다.
자동 얼굴 위치 지정 방법은 전통적 탐지 기법 대비 거짓 양성률을 35% 감소시켰다.
입술 위치 지정 알고리즘이 다양한 머리 자세와 조명 조건에서 입술 영역 탐지 정확도를 28% 향상시켰다.
LBP 특징과 시각적 단어 군집화를 조합함으로써 유사하게 보이는 음소에 대해 특히 강력한 분류 능력을 향상시켰다.
국소화되고 불변하는 특징 표현 덕분에 배경 혼잡성과 부분적 가림에 대해 강건성을 보였다.
시각적 단어와 SVM 분류의 통합으로 기준 HMM 기반 시스템 대비 F1-스코어에서 15% 향상된 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.