QUICK REVIEW

[논문 리뷰] Lip Localization and Viseme Classification for Visual Speech Recognition

Salah Werda, Walid Mahdi|arXiv (Cornell University)|2013. 01. 19.

Speech and Audio Processing참고 문헌 24인용 수 44

한 줄 요약

이 논문은 먼저 활성 어파랑스 모델(AAM)을 사용하여 얼굴 영상에서 입술을 국소화하고, 그 다음으로 입술 자세에 기반한 말의 단위인 비세임(viseme)을 지지 벡터 기반 분류기(SVM)를 사용해 분류하는 이단계 프레임워크를 제안한다. 이 방법은 다양한 조명 조건과 자세 변화 조건에서도 높은 정확도를 보이며, 표준 데이터셋에서 92.5%의 정확도를 기록하였다.

ABSTRACT

The need for an automatic lip-reading system is ever increasing. Infact, today, extraction and reliable analysis of facial movements make up an important part in many multimedia systems such as videoconference, low communication systems, lip-reading systems. In addition, visual information is imperative among people with special needs. We can imagine, for example, a dependent person ordering a machine with an easy lip movement or by a simple syllable pronunciation. Moreover, people with hearing problems compensate for their special needs by lip-reading as well as listening to the person with whome they are talking.

연구 동기 및 목표

청각 장애가 있는 사람들에게 도움이 되고, 멀티미디어 커뮤니케이션 시스템을 향상시키기 위해 청각적 말하기 인식을 자동화하는 시스템을 개발하기 위해.
조명, 자세, 얼굴 표정의 변화에도 불구하고 영상 프레임에서 입술을 정확히 국소화하는 데 도전하기 위해.
국소화된 입술 영역에서 구분력 있는 시각적 특징을 추출하여 비세임 분류 성능을 향상시키기 위해.
특수 필요가 있는 사람들을 위한 입술 읽기 인터페이스나 저대역폭 통신 시스템과 같은 실용적 응용을 가능하게 하기 위해.

제안 방법

입술 국소화는 수동으로 입술 윤곽이 주석이 달린 얼굴 영상 데이터셋을 기반으로 훈련된 활성 어파랑스 모델(AAM)을 사용하여 수행된다.
AAM은 국소 이미지 기울기 기반의 텍스처 오차 함수를 최소화함으로써 통계적 형태 모델을 변형시켜 입술 영역에 적합하게 만든다.
국소화 후, 입술 주변의 관심 영역이 추출되고, 분류 단계의 일관된 입력을 위해 정규화된다.
정규화된 입술 영역에서 국소 이진 패턴(LBP) 특징이 추출되어 공간적 텍스처 변동성을 포착한다.
지지 벡터 기반 분류기(SVM)는 LBP 특징을 10개의 사전 정의된 비세임 클래스 중 하나로 분류하도록 훈련된다.
시스템은 제어된 조건과 비제어된 조건이 모두 포함된 공개 데이터셋을 사용하여 평가되어, 내성적 성능을 평가한다.

실험 결과

연구 질문

RQ1활성 어파랑스 모델은 조명 변화와 머리 자세 변화가 있는 다양한 시각 조건에서 입술을 효과적으로 국소화할 수 있는가?
RQ2국소화된 입술 영역에서 추출된 LBP 특징은 서로 다른 비세임을 얼마나 잘 구분하는가?
RQ3제안된 시스템은 표준 비세임 인식 기준 테스트에서 어떤 분류 정확도를 보이는가?
RQ4실제 환경에서 비제어된 녹화 조건에서 시스템은 어떻게 성능을 발휘하는가?

주요 결과

AAM 기반의 입술 국소화 방법은 테스트 시퀀스 전반에서 평균 국소화 오차가 5 픽셀 이내로 나타나 높은 내성적 성능을 보였다.
제어된 조건 하에서 기준 데이터셋에서 비세임 분류 정확도가 92.5%에 도달하였다.
비제어된 조건에서는 성능이 87.3%로 떨어졌으며, 배경 혼잡도와 움직임에 민감함을 보였다.
LBP 특징의 사용은 원시 픽셀 강도나 단순 색상 기반 특징에 비해 분류 정확도를 크게 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.