Skip to main content
QUICK REVIEW

[논문 리뷰] LipNet: Sentence-level Lipreading.

Yannis Assael, Brendan Shillingford|arXiv (Cornell University)|2016. 11. 05.
Speech and Audio Processing참고 문헌 39인용 수 112
한 줄 요약

LipNet은 문장 수준의 입술 읽기용으로 처음으로 종단 간 전이되는, 화자 독립적인 딥러닝 모델이며, 시공간 컨볼루션과 LSTM을 결합하고 CTC 손실을 사용하여 영상 시퀀스를 직접 텍스트로 매핑한다. 이 모델은 GRID 코퍼스에서 93.4%의 정확도를 기록하여 인간의 입술 읽기자들과 이전의 최고 성능 모델들을 능가한다.

ABSTRACT

Lipreading is the task of decoding text from the movement of a speaker's mouth. Traditional approaches separated the problem into two stages: designing or learning visual features, and prediction. More recent deep lipreading approaches are end-to-end trainable (Wand et al., 2016; Chung & Zisserman, 2016a). All existing works, however, perform only word classification, not sentence-level sequence prediction. Studies have shown that human lipreading performance increases for longer words (Easton & Basala, 1982), indicating the importance of features capturing temporal context in an ambiguous communication channel. Motivated by this observation, we present LipNet, a model that maps a variable-length sequence of video frames to text, making use of spatiotemporal convolutions, an LSTM recurrent network, and the connectionist temporal classification loss, trained entirely end-to-end. To the best of our knowledge, LipNet is the first lipreading model to operate at sentence-level, using a single end-to-end speaker-independent deep model to simultaneously learn spatiotemporal visual features and a sequence model. On the GRID corpus, LipNet achieves 93.4% accuracy, outperforming experienced human lipreaders and the previous 79.6% state-of-the-art accuracy.

연구 동기 및 목표

  • 문장 수준의 입술 읽기 기능을 구현할 수 있는 종단 간 딥러닝 모델을 개발하는 것.
  • 재귀적 모델링을 통해 시간적 맥락을 활용하여 모호한 시각적 언어에서 성능을 향상시키는 것.
  • 영상 프레임에서 직접 시공간 표현을 학습함으로써 수작업으로 만든 시각적 특징이 필요 없도록 하는 것.
  • 단일 통합 아키텍처를 통해 종단 간 훈련을 통해 화자 독립적인 성능을 달성하는 것.
  • GRID와 같은 기준 데이터셋에서 기존 방법들과 인간의 입술 읽기자들을 능가하는 것.

제안 방법

  • LipNet은 영상 프레임에서 시공간적 특징을 추출하기 위해 3D 컨volution 신경망(3D-CNN)을 사용하여 공간적 입술 모양과 시간적 동적 변화를 모두 캡처한다.
  • 추출된 특징은 양방향 장기 단기 기억(LSTM) 네트워크를 통해 시각적 특징 시퀀스의 장거리 의존성을 모델링한다.
  • 모델은 종단 간 훈련을 위해 커넥티스트 시간 분류(CTC) 손실을 사용하여, 프레임 수준의 애너테이션이 없이도 가변 길이의 영상 입력과 텍스트 시퀀스 간의 정렬을 허용한다.
  • 아키텍처는 원시 영상 프레임에서만 훈련되어 시각적 표현과 시퀀스 예측을 동시에 학습한다.
  • 스티어티식 경사 하강법과 시간을 거슬러 역전파를 사용하여 공간적 및 시간적 패턴을 함께 학습한다.

실험 결과

연구 질문

  • RQ1종단 간 딥러닝 모델이 이전의 단어 수준 접근 방식에 비해 더 뛰어난 문장 수준의 입술 읽기 성능을 달성할 수 있는가?
  • RQ2RNN를 통해 장거리 시간적 맥락을 모델링하면 모호한 시각적 언어 인식에서 성능이 향상되는가?
  • RQ3단일 화자 독립 모델이 GRID 코퍼스와 같은 표준 벤치마크에서 인간의 입술 읽기자들을 능가할 수 있는가?
  • RQ4수작업으로 만든 시각적 특징을 제거하고 영상 프레임에서 직접 시공간 표현을 학습할 수 있는가?

주요 결과

  • LipNet은 GRID 코퍼스에서 93.4%의 단어 수준 정확도를 기록하여 이전 최고 성능인 79.6%를 크게 뛰어넘었다.
  • 모델은 경험 많은 인간 입술 읽기자들(동일한 벤치마크에서 약 90%의 정확도 기록)의 성능을 뛰어넘었다.
  • 시공간 컨볼루션의 사용은 공간적 입술 구성과 그 시간에 따른 변화를 효과적으로 학습할 수 있도록 했다.
  • 양방향 LSTM의 통합은 시각적 시퀀스의 장거리 의존성을 포착하여 맥락 인식 능력을 향상시켰다.
  • CTC 손실을 통한 종단 간 훈련은 강력한 정렬을 가능하게 하여 프레임 수준의 강제 정렬이 필요 없도록 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.