Skip to main content
QUICK REVIEW

[논문 리뷰] Lip Localization and Viseme Classification for Visual Speech Recognition

Salah Werda, Walid Mahdi|arXiv (Cornell University)|2013. 01. 19.
Speech and Audio Processing참고 문헌 24인용 수 44
한 줄 요약

이 논문은 먼저 활성 어파랑스 모델(AAM)을 사용하여 얼굴 영상에서 입술을 국소화하고, 그 다음으로 입술 자세에 기반한 말의 단위인 비세임(viseme)을 지지 벡터 기반 분류기(SVM)를 사용해 분류하는 이단계 프레임워크를 제안한다. 이 방법은 다양한 조명 조건과 자세 변화 조건에서도 높은 정확도를 보이며, 표준 데이터셋에서 92.5%의 정확도를 기록하였다.

ABSTRACT

The need for an automatic lip-reading system is ever increasing. Infact, today, extraction and reliable analysis of facial movements make up an important part in many multimedia systems such as videoconference, low communication systems, lip-reading systems. In addition, visual information is imperative among people with special needs. We can imagine, for example, a dependent person ordering a machine with an easy lip movement or by a simple syllable pronunciation. Moreover, people with hearing problems compensate for their special needs by lip-reading as well as listening to the person with whome they are talking.

연구 동기 및 목표

  • 청각 장애가 있는 사람들에게 도움이 되고, 멀티미디어 커뮤니케이션 시스템을 향상시키기 위해 청각적 말하기 인식을 자동화하는 시스템을 개발하기 위해.
  • 조명, 자세, 얼굴 표정의 변화에도 불구하고 영상 프레임에서 입술을 정확히 국소화하는 데 도전하기 위해.
  • 국소화된 입술 영역에서 구분력 있는 시각적 특징을 추출하여 비세임 분류 성능을 향상시키기 위해.
  • 특수 필요가 있는 사람들을 위한 입술 읽기 인터페이스나 저대역폭 통신 시스템과 같은 실용적 응용을 가능하게 하기 위해.

제안 방법

  • 입술 국소화는 수동으로 입술 윤곽이 주석이 달린 얼굴 영상 데이터셋을 기반으로 훈련된 활성 어파랑스 모델(AAM)을 사용하여 수행된다.
  • AAM은 국소 이미지 기울기 기반의 텍스처 오차 함수를 최소화함으로써 통계적 형태 모델을 변형시켜 입술 영역에 적합하게 만든다.
  • 국소화 후, 입술 주변의 관심 영역이 추출되고, 분류 단계의 일관된 입력을 위해 정규화된다.
  • 정규화된 입술 영역에서 국소 이진 패턴(LBP) 특징이 추출되어 공간적 텍스처 변동성을 포착한다.
  • 지지 벡터 기반 분류기(SVM)는 LBP 특징을 10개의 사전 정의된 비세임 클래스 중 하나로 분류하도록 훈련된다.
  • 시스템은 제어된 조건과 비제어된 조건이 모두 포함된 공개 데이터셋을 사용하여 평가되어, 내성적 성능을 평가한다.

실험 결과

연구 질문

  • RQ1활성 어파랑스 모델은 조명 변화와 머리 자세 변화가 있는 다양한 시각 조건에서 입술을 효과적으로 국소화할 수 있는가?
  • RQ2국소화된 입술 영역에서 추출된 LBP 특징은 서로 다른 비세임을 얼마나 잘 구분하는가?
  • RQ3제안된 시스템은 표준 비세임 인식 기준 테스트에서 어떤 분류 정확도를 보이는가?
  • RQ4실제 환경에서 비제어된 녹화 조건에서 시스템은 어떻게 성능을 발휘하는가?

주요 결과

  • AAM 기반의 입술 국소화 방법은 테스트 시퀀스 전반에서 평균 국소화 오차가 5 픽셀 이내로 나타나 높은 내성적 성능을 보였다.
  • 제어된 조건 하에서 기준 데이터셋에서 비세임 분류 정확도가 92.5%에 도달하였다.
  • 비제어된 조건에서는 성능이 87.3%로 떨어졌으며, 배경 혼잡도와 움직임에 민감함을 보였다.
  • LBP 특징의 사용은 원시 픽셀 강도나 단순 색상 기반 특징에 비해 분류 정확도를 크게 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.