QUICK REVIEW

[논문 리뷰] Learn an Effective Lip Reading Model without Pains

Dalu Feng, Shuang Yang|arXiv (Cornell University)|2020. 11. 15.

Speech and Audio Processing참고 문헌 30인용 수 51

한 줄 요약

이 논문은 립 리딩의 훈련 요인에 대한 포괄적인 양적 연구를 수행하고, baseline 파이프라인에 대한 간단한 개선으로 LRW와 LRW-1000에서 상당한 모델 변경 없이 최첨단 성능에 도달할 수 있음을 보여준다.

ABSTRACT

Lip reading, also known as visual speech recognition, aims to recognize the speech content from videos by analyzing the lip dynamics. There have been several appealing progress in recent years, benefiting much from the rapidly developed deep learning techniques and the recent large-scale lip-reading datasets. Most existing methods obtained high performance by constructing a complex neural network, together with several customized training strategies which were always given in a very brief description or even shown only in the source code. We find that making proper use of these strategies could always bring exciting improvements without changing much of the model. Considering the non-negligible effects of these strategies and the existing tough status to train an effective lip reading model, we perform a comprehensive quantitative study and comparative analysis, for the first time, to show the effects of several different choices for lip reading. By only introducing some easy-to-get refinements to the baseline pipeline, we obtain an obvious improvement of the performance from 83.7% to 88.4% and from 38.2% to 55.7% on two largest public available lip reading datasets, LRW and LRW-1000, respectively. They are comparable and even surpass the existing state-of-the-art results.

연구 동기 및 목표

립 리딩 성능에 대한 학습 선택과 데이터 처리의 영향에 동기를 부여하고 이를 정량화한다.
기준 립 리딩 파이프라인의 성능을 향상시키는 효과적인 개선점을 식별한다.
주요 아키텍처 변경 없이도 간단하고 정교한 학습 파이프라인이 LRW와 LRW-1000에서 경쟁력 있는 결과를 달성할 수 있음을 보여준다.

제안 방법

ResNet-18 프런트엔드와 GRU 백엔드를 갖춘 기준 립 리딩 파이프라인을 사용한다.
데이터 처리(얼굴 정렬, 단어 경계 입력), 학습 미세조정(MixUp, 라벨 매끄럽게 하기, 학습률 스케줄)을 탐구한다.
SE( squeeze-and-excitation) 모듈과 코사인 학습률 스케줄링을 정교한 파이프라인에 통합한다.
LRW(영어)와 LRW-1000(중국어) 데이터셋에서 평가한다.
프런트엔드/백본 모듈을 비교하고 다양한 구성의 효과를 문서화한다.
효과적인 조합을 식별하기 위해 표 형식으로 결과를 보고한다.

실험 결과

연구 질문

RQ1모델 아키텍처를 변경하지 않고 립 리딩 성능을 가장 크게 향상시키는 학습 전략과 데이터 처리 단계는 무엇인가?
RQ2얼굴 정렬, 단어 경계 입력, MixUp, 라벨 매끄럽게 하기, 코사인 LR 스케줄링과 같은 개선이 LRW와 LRW-1000에서 일관된 이익을 가져오는가?
RQ3이 학습 기법들과 결합했을 때 프런트엔드/백엔드 선택의 상대적 영향은 무엇인가?
RQ4간단하고 정교한 파이프라인이 대형 립 리딩 데이터셋에서 최첨단 성능에 도달하거나 이를 능가할 수 있는가?

주요 결과

프런트엔드	백엔드	데이터 유형 / 데이터 처리	LRW	LRW-1000
VGGM*	-	Lip	61.1%	25.7%
ResNet-18*	3 Layers GRU	Lip	83.0%	38.2%
ResNet-34*	-	-	83.5%	-
ResNet-18	-	-	83.7%	46.5%
SE-ResNet-18	-	-	84.1%	46.8%
ResNet-18	3 Layers GRU	Lip	83.7%	46.5%
GRU w/o dropout	-	-	83.1%	45.5%
MS-TCN	-	-	83.4%	43.0%
Transformer*	-	-	76.2%	44.5%
Baseline	-	Baseline	83.7%	46.5%
Aligned Lip	-	Aligned Lip	84.2%	-
Word Boundary Input	-	Aligned Lip	86.5%	53.6%
Baseline	-	Baseline	83.7%	46.5%
MixUp	-	Baseline	84.0%	47.3%
Label Smoothing	-	Baseline	84.2%	47.0%
Cosine Scheduler	-	Baseline	84.2%	46.6%
Exp Scheduler	-	Baseline	83.2%	45.6%
SE+MixUp+Cosine LR+LS+WB	SE-ResNet-18	Aligned Lip	85.0%	48.0%
+ Word Boundary			88.4%	55.7%

개선으로 LRW에서 기준 정확도가 83.7%에서 88.4%로 향상된다.
LRW-1000에서 기준 정확도가 46.5%에서 55.7%로 향상된다.
SE-ResNet-18 프런트엔드에 BiGRU 백엔드와 정렬된 립 데이터가 결합되면 경쟁력 있는 결과를 산출한다; 단어 경계 추가로 LRW에서 88.4%, LRW-1000에서 55.7%로 더 향상된다.
얼굴 정렬 및 단어 경계 입력이 기본 데이터 처리 대비 상당한 이점을 제공한다.
코사인 학습률 스케줄링은 고정된 구간 기반 스케줄링에 비해 작지만 긍정적인 개선을 제공한다; MixUp과 라벨 매끄럽게 하기가 일반화에 기여한다.
동일 조건에서 GRU 기반 백엔드가 Temporal ConvNET 및 Transformer를 능가하는 경향이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.