QUICK REVIEW

[論文レビュー] Utterance-Based Audio Sentiment Analysis Learned by a Parallel Combination of CNN and LSTM.

Ziqian Luo, Hua Xu|arXiv (Cornell University)|Nov 20, 2018

Music and Audio Processing参考文献 30被引用数 16

ひとこと要約

本論文では、音声発話ベースの音声感情分析のための並列型CNN-LSTMディープラーニングモデルを提案する。スペクトル特徴とケプストラル特徴をBiLSTMとアテンションを用いて統合し、判別性の高い音声感情ベクトル（ASV）を生成する。MOSIデータセットにおいて、最先端手法よりも9.33%の向上を達成し、感情認識の精度と効率性に優れていることが示された。

ABSTRACT

Audio Sentiment Analysis is a popular research area which extends the conventional text-based sentiment analysis to depend on the effectiveness of acoustic features extracted from speech. However, current progress on audio sentiment analysis mainly focuses on extracting homogeneous acoustic features or doesn't fuse heterogeneous features effectively. In this paper, we propose an utterance-based deep neural network model, which has a parallel combination of Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM) based network, to obtain representative features termed Audio Sentiment Vector (ASV), that can maximally reflect sentiment information in an audio. Specifically, our model is trained by utterance-level labels and ASV can be extracted and fused creatively from two branches. In the CNN model branch, spectrum graphs produced by signals are fed as inputs while in the LSTM model branch, inputs include spectral features and cepstrum coefficient extracted from dependent utterances in audio. Besides, Bidirectional Long Short-Term Memory (BiLSTM) with attention mechanism is used for feature fusion. Extensive experiments have been conducted to show our model can recognize audio sentiment precisely and quickly, and demonstrate our ASV is better than traditional acoustic features or vectors extracted from other deep learning models. Furthermore, experimental results indicate that the proposed model outperforms the state-of-the-art approach by 9.33\% on Multimodal Opinion-level Sentiment Intensity dataset (MOSI) dataset.

研究の動機と目的

現在の音声感情分析手法が同質の音響特徴に依存している、または異種特徴の効果的な統合に欠けているという限界を解決する。
生の音声発話を発話レベルで処理し、代表的で感情に富んだ特徴を学習可能なディープニューラルネットワークモデルを開発する。
並列型CNN-LSTMアーキテクチャを用いて、スペクトル特徴とケプストラル特徴を効果的に統合することで、感情認識の性能を向上させる。
従来の特徴や他のディープラーニングベクトルよりも、豊富な感情情報を効果的に捉えることができる新規の音声感情ベクトル（ASV）を導入する。

提案手法

2本のブランチを持つ並列アーキテクチャを採用：1本目はスペトログラム入力を用いたCNNによる局所的パターン抽出、2本目はスペクトルおよびケプストラル特徴を用いたLSTMによる時系列モデリング。
発話レベルの感情ラベルを用いて学習することで、感情関連表現のエンドツーエンド学習を保証する。
BiLSTMネットワークにアテンション機構を適用し、CNNブランチおよびLSTMブランチからの特徴を動的に統合する。
統合されたBiLSTM出力から得られる最終表現として音声感情ベクトル（ASV）を生成し、感情分類に最適化する。
CNNブランチには、生の音声信号から得られるスペトログラムを入力とし、LSTMブランチには時系列に整列されたスペクトルおよびケプストラル係数を処理する。
BiLSTMにおけるアテンション機構を活用し、時系列内の重要な時間的セグメントに重みを付けることで、感情に敏感な特徴学習を強化する。

実験結果

リサーチクエスチョン

RQ1異種音響特徴から判別性の高い音声感情表現を学習できる、並列型CNN-LSTMアーキテクチャは有効か？
RQ2スペクトログラムに基づくCNN特徴とケプストラルに基づくLSTM特徴をアテンションを用いて統合することで、感情認識性能が向上するか？
RQ3提案された音声感情ベクトル（ASV）は、従来の音響特徴や他のディープラーニングモデルのベクトルと比較して、感情分類において優れているか？
RQ4提案モデルは、ベンチマークとしての音声感情データセットにおいて、最先端手法をどの程度上回るか？

主な発見

提案モデルは、マルチモodal Opinion-level Sentiment Intensity（MOSI）データセットにおいて、最先端手法よりも9.33%の絶対的性能向上を達成した。
生成された音声感情ベクトル（ASV）は、従来の音響特徴や他のディープラーニングモデルのベクトルと比較して、優れた表現力を持つことが示された。
BiLSTMにアテンション機構を適用することで、特徴統合が著しく向上し、より正確な感情分類が可能になった。
モデルは正確かつ高速な音声感情認識を実現しており、実世界の応用における効率性と有効性を裏付けた。
並列型CNN-LSTMアーキテクチャは、音声信号における局所的スペクトルパターンと長期的な時系列的依存性を効果的に捉えている。
広範な実験により、提案手法がMOSIベンチマークにおいて、精度と頑健性の両面で既存モデルを上回ることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。