QUICK REVIEW

[논문 리뷰] Audio Visual Emotion Recognition with Temporal Alignment and Perception Attention

Linlin Chao, Jianhua Tao|arXiv (Cornell University)|2016. 03. 28.

Speech and Audio Processing참고 문헌 20인용 수 24

한 줄 요약

이 논문은 소리와 영상 스트림 간의 시간적 정렬을 위한 소프트 어텐션 기반 메커니즘과 인지와 관련된 세그먼트를 식별하는 데 사용되는 딥러닝 프레임워크를 제안한다. LSTM-RNN을 감정 특수 임베딩 벡터와 통합함으로써, EmotiW2015 데이터셋에서 정확도가 향상되어 어텐션 기반 시간적 정렬과 인지 인식 특성 재가중의 효과를 입증한다.

ABSTRACT

This paper focuses on two key problems for audio-visual emotion recognition in the video. One is the audio and visual streams temporal alignment for feature level fusion. The other one is locating and re-weighting the perception attentions in the whole audio-visual stream for better recognition. The Long Short Term Memory Recurrent Neural Network (LSTM-RNN) is employed as the main classification architecture. Firstly, soft attention mechanism aligns the audio and visual streams. Secondly, seven emotion embedding vectors, which are corresponding to each classification emotion type, are added to locate the perception attentions. The locating and re-weighting process is also based on the soft attention mechanism. The experiment results on EmotiW2015 dataset and the qualitative analysis show the efficiency of the proposed two techniques.

연구 동기 및 목표

비디오 기반 감정 인식에서 음성 및 시각 스트림 간의 정렬 오류를 해결하기 위해.
다중모odal 시퀀스에서 인지와 관련된 세그먼트를 식별하고 강조함으로써 인식 성능을 향상시키기 위해.
감정 특수 임베딩 벡터를 어텐션 메커니즘에 통합하여 영향을 주는 콘텐츠의 국소화를 향상시키기 위해.
어텐션 기반 융합 및 시간적 정렬의 효과성을 검증하기 위해.

제안 방법

청각-시각 특징의 순차적 모델링을 위한 핵심 분류 아키텍처로 LSTM-RNN을 사용한다.
효율적 융합을 위해 소프트 어텐션 메커니즘을 적용하여 음성 및 시각 특징을 시간 차원에서 정렬한다.
각 감정 클래스에 대응하는 일곱 개의 감정 임베딩 벡터를 도입하여 인지 어텐션 국소화를 안내한다.
학습된 인지 어텐션 기반으로 소프트 어텐션을 재사용하여 관련 세그먼트에 집중하도록 특징을 재가중한다.
시간 정렬 및 어텐션 구성 요소를 공동 최적화하여 EmotiW2015 데이터셋에서 엔드 투 엔드 모델을 훈련한다.
시간 정렬 이후 음성 및 시각 특징을 융합하여 감정 분류를 위한 분류 능력을 향상시킨다.

실험 결과

연구 질문

RQ1다중모달 감정 인식을 위해 음성 및 시각 스트림을 효과적으로 시간적으로 정렬할 수 있는가?
RQ2인지 인식 어텐션 메커니즘이 관련 감정 세그먼트에 집중함으로써 인식 성능을 향상시킬 수 있는가?
RQ3감정 특수 임베딩가 청각-시각 시퀀스에서 어텐션 국소화를 어느 정도 향상시키는가?
RQ4제안된 어텐션 기반 융합 방식이 감정 인식 작업에서 표준 특징 연결 방식보다 우수한가?

주요 결과

소프트 어텐션을 사용한 제안된 시간적 정렬은 음성 및 시각 모odal 표현을 동기화함으로써 특징 융합을 크게 향상시킨다.
감정 특수 임베딩에 의해 안내된 인지 어텐션은 관련 감정 콘텐츠에 대한 모델의 집중도를 높여 분류의 강건성을 향상시킨다.
모델은 EmotiW2015 데이터셋에서 최신 기술 수준의 성능을 달성하여 어텐션 메커니즘의 효과성을 입증한다.
정성적 분석을 통해 어텐션 메커니즘이 청각 및 시각 모달 모두에서 감정적으로 중요한 프레임을 성공적으로 강조함을 확인할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.