QUICK REVIEW

[논문 리뷰] Utterance-Based Audio Sentiment Analysis Learned by a Parallel Combination of CNN and LSTM.

Ziqian Luo, Hua Xu|arXiv (Cornell University)|2018. 11. 20.

Music and Audio Processing참고 문헌 30인용 수 16

한 줄 요약

이 논문은 발화 기반 음성 감성 분석을 위한 병렬 CNN-LSTM 딥러닝 모델을 제안하며, BiLSTM와 주의 메커니즘을 통해 스펙트럼 및 서플리컬 특징을 융합하여 분류에 유리한 음성 감성 벡터(ASV)를 생성한다. MOSI 데이터셋에서 최신 기술 대비 9.33% 향상된 성능을 기록하여, 감성 인식 정확도와 효율성에서 뛰어난 성능을 입증한다.

ABSTRACT

Audio Sentiment Analysis is a popular research area which extends the conventional text-based sentiment analysis to depend on the effectiveness of acoustic features extracted from speech. However, current progress on audio sentiment analysis mainly focuses on extracting homogeneous acoustic features or doesn't fuse heterogeneous features effectively. In this paper, we propose an utterance-based deep neural network model, which has a parallel combination of Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM) based network, to obtain representative features termed Audio Sentiment Vector (ASV), that can maximally reflect sentiment information in an audio. Specifically, our model is trained by utterance-level labels and ASV can be extracted and fused creatively from two branches. In the CNN model branch, spectrum graphs produced by signals are fed as inputs while in the LSTM model branch, inputs include spectral features and cepstrum coefficient extracted from dependent utterances in audio. Besides, Bidirectional Long Short-Term Memory (BiLSTM) with attention mechanism is used for feature fusion. Extensive experiments have been conducted to show our model can recognize audio sentiment precisely and quickly, and demonstrate our ASV is better than traditional acoustic features or vectors extracted from other deep learning models. Furthermore, experimental results indicate that the proposed model outperforms the state-of-the-art approach by 9.33\% on Multimodal Opinion-level Sentiment Intensity dataset (MOSI) dataset.

연구 동기 및 목표

현재의 음성 감성 분석 방법이 동일한 음향 특징에 의존하거나 이질적 특징의 유효하지 않은 융합에 의존하는 한계를 해결한다.
원시 음성 발화 수준에서 대표적이고 감성 정보가 풍부한 특징을 학습할 수 있는 딥 네트워크 모델을 개발한다.
병렬 CNN-LSTM 아키텍처를 통해 스펙트럼 및 서플리컬 특징을 효과적으로 융합하여 감성 인식 성능을 향상시킨다.
기존 특징이나 다른 딥러닝 벡터보다 감성 정보를 더 효과적으로 포착하는 새로운 음성 감성 벡터(ASV)를 도입한다.

제안 방법

스펙트로그램 입력을 사용하는 CNN를 통한 局소 패턴 추출을 위한 브랜치와, 스펙트럼 및 서플리컬 특징을 사용하는 LSTM를 통한 순차적 모델링을 위한 브랜치를 갖춘 병렬 아키텍처를 구현한다.
감성 레이블을 발화 수준에서 학습시켜 감성 관련 표현을 종단 간(end-to-end)으로 학습하도록 한다.
BiLSTM 네트워크에 주의 메커니즘을 적용하여 CNN 및 LSTM 브랜치의 특징을 동적으로 융합한다.
융합된 BiLSTM 출력에서 최종 표현으로서 음성 감성 벡터(ASV)를 생성하며, 감성 분류 최적화를 목적으로 한다.
CNN 브랜치는 원시 음성 신호에서 유도된 스펙트로그램을 입력으로 사용하고, LSTM 브랜치는 시간 순서로 정렬된 스펙트럼 및 서플리컬 계수를 처리한다.
BiLSTM 내 주의 메커니즘을 활용해 시계열에서 중요한 시간적 세그먼트에 가중치를 부여하여 감성 인식 특징 학습을 향상시킨다.

실험 결과

연구 질문

RQ1이질적 음향 특징에서 병렬 CNN-LSTM 아키텍처가 분류에 적합한 음성 감성 표현을 효과적으로 학습할 수 있는가?
RQ2스펙트로그램 기반 CNN 특징과 서플리컬 기반 LSTM 특징을 주의 메커니즘을 통해 융합하면 감성 인식 성능이 향상되는가?
RQ3제안된 음성 감성 벡터(ASV)는 전통적인 음향 특징이나 다른 딥러닝 모델의 벡터와 비교해 감성 분류에서 어떻게 성능을 발휘하는가?
RQ4제안된 모델이 벤치마크 음성 감성 데이터셋에서 최신 기술 대비 얼마나 뛰어난 성능을 보이는가?

주요 결과

제안된 모델은 다모달 의견 수준 감성 강도(MOSI) 데이터셋에서 최신 기술 대비 9.33%의 절대 성능 향상을 달성한다.
생성된 음성 감성 벡터(ASV)는 기존의 전통적 음향 특징과 다른 딥러닝 모델의 벡터보다 뛰어난 표현 능력을 보여준다.
BiLSTM에 주의 메커니즘을 적용한 것은 특징 융합을 크게 향상시켜 더 정확한 감성 분류를 이끌어낸다.
모델은 정밀하고 빠른 음성 감성 인식을 가능하게 하여 실생활 응용에서의 효율성과 효과성을 입증한다.
병렬 CNN-LSTM 아키텍처는 음성 신호 내의 국소 스펙트럼 패턴과 장기적 시간적 의존성을 효과적으로 포착한다.
광범위한 실험을 통해 제안된 방법이 MOSI 벤치마크에서 정확도와 강인성 측면에서 기존 모델을 모두 능가함을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.