QUICK REVIEW

[논문 리뷰] Deep Multimodal Learning for Audio-Visual Speech Recognition

Youssef Mroueh, Etienne Marcheret|arXiv (Cornell University)|2015. 01. 22.

Speech and Audio Processing참고 문헌 15인용 수 28

한 줄 요약

이 논문은 별도로 훈련된 유모달 DNN의 후기 융합과 교차 모odal 상관관계를 모델링하는 새로운 이차형 DNN 아키텍처를 사용한 깊이 있는 다중모달 학습 프레임워크를 제안한다. 이 방법은 IBM AV-ASR 데이터셋에서 34.03%의 텔레비전 오류율(PER)을 달성하여, 오디오 전용 및 융합된 유모달 모델을 능가하며, 청소된 음성 조건에서도 음성과 시각 모달 간의 공동 모델링을 통해 상당한 성능 향상을 보여준다.

ABSTRACT

In this paper, we present methods in deep multimodal learning for fusing speech and visual modalities for Audio-Visual Automatic Speech Recognition (AV-ASR). First, we study an approach where uni-modal deep networks are trained separately and their final hidden layers fused to obtain a joint feature space in which another deep network is built. While the audio network alone achieves a phone error rate (PER) of $41\%$ under clean condition on the IBM large vocabulary audio-visual studio dataset, this fusion model achieves a PER of $35.83\%$ demonstrating the tremendous value of the visual channel in phone classification even in audio with high signal to noise ratio. Second, we present a new deep network architecture that uses a bilinear softmax layer to account for class specific correlations between modalities. We show that combining the posteriors from the bilinear networks with those from the fused model mentioned above results in a further significant phone error rate reduction, yielding a final PER of $34.03\%$.

연구 동기 및 목표

이전 연구가 주로 소음 환경에 초점을 맞추었음에도 불구하고, 청소된 음성 조건에서 시각 모달이 음성 인식 성능 향상에 기여하는지 검토하는 것.
음성과 시각 특징을 효과적으로 융합하여 더 나은 음소 분류를 달성하는 딥 러닝 프레임워크를 개발하는 것.
음성과 시각 모달 간의 클래스별 상관관계를 명시적으로 모델링하는 이차형 DNN 아키텍처를 도입하는 것.
이차형 및 융합된 이모달 네트워크의 사후 확률을 조합함으로써 오류 상관관계 억제를 통해 오류율을 추가로 감소시킬 수 있음을 보여주는 것.

제안 방법

음성과 시각 모달에 대해 별도의 딥 네ural 네트워크(DNN)를 훈련한 후, 최종 은닉층 표현을 융합하여 공동 분류를 수행하는 것.
텐서 곱을 통해 음성과 시각 특징 간의 상호작용을 모델링하는 이차형 소프트맥스 레이어를 도입하여 모달 상관관계의 공동 학습을 가능하게 하는 것.
이차형 레이어를 통해 모달 간 메시지 전달 항목을 포함하는 이차형 DNN에 대한 역전파 알고리즘을 유도하여 기울기 전파 및 가중치 갱신을 허용하는 것.
MFCC와 산란 계수에 각각 LDA를 적용하여 음성 및 시각 특징의 차원을 감소시켜 압축되고 구분력 있는 표현을 생성하는 것.
다양한 이차형 및 이모달 DNN 아키텍처의 사후 확률을 융합하여 오류 상관관계를 줄이고 일반화 성능을 향상시키는 것.
훈련 중 이차형 가중치 행렬의 안정성을 확보하고 발산을 방지하기 위해 프로베니우스 노름 제약을 적용하는 것.

실험 결과

연구 질문

RQ1신호 대 잡음비가 높은 청소된 음성 조건에서도 시각 정보가 음성 인식 성능 향상에 상당한 기여를 할 수 있는가?
RQ2별도로 훈련된 유모달 DNN의 후기 융합이 오디오-비주얼 ASR에서 오디오 전용 모델보다 성능을 향상시키는가?
RQ3교차 모달 상관관계를 모델링하는 이차형 DNN 아키텍처가 표준 융합 방법보다 음소 오류율 감소에서 뛰어난 성능을 보일 수 있는가?
RQ4이차형 DNN와 융합된 이모달 DNN 간에 상보적인 오류 행동이 존재하여 사후 확률 조합을 통해 추가적인 성능 향상을 이룰 수 있는가?

주요 결과

융합된 유모달 DNN 모델은 35.83%의 음소 오류율(PER)을 기록하여 오디오 전용 기준 모델의 41% PER에서 6.17% 포인트 감소한 성과를 보였다.
이차형 DNN 아키텍처 자체는 융합된 이모달 모델을 능가하지 못했지만, 이와 융합된 사후 확률 조합은 34.03% PER을 달성하여 융합 모델 대비 1.8%의 절대적 향상을 보였다.
세 개의 이차형 DNN 아키텍처를 사후 확률 평균화를 통해 융합한 결과 35.54% PER을 기록하여, 이차형 모델 간 오류가 상관관계가 없고 일반화 성능 향상에 기여함을 시사했다.
이차형 DNN가 클래스별 모달 상관관계를 모델링할 수 있었기에, 이는 이모달 모델과 융합했을 때의 상당한 오류 감소로 입증되었다.
결과적으로 시각 정보가 소음이 많거나 말이 겹치는 환경 외에도 청소된 음성 환경에서 상당한 이점을 제공함을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.