QUICK REVIEW

[論文レビュー] Evaluating Gammatone Frequency Cepstral Coefficients with Neural Networks for Emotion Recognition from Speech

Gabrielle Kaili-May Liu|arXiv (Cornell University)|Jun 23, 2018

Speech and Audio Processing参考文献 9被引用数 34

ひとこと要約

この論文は、感情認識および強度認識のためのスティーブス表現として、従来のメル周波数ケプストラル係数（MFCCs）と比較して、ガンマトーン周波数ケプストラル係数（GFCCs）が優れた表現を提供することを評価している。RAVDESSデータセットを用い、全結合層、LSTM、アテンションベースのLSTMネットワークを用いて評価した結果、GFCCsはすべてのアーキテクチャでMFCCsを上回り、平均して3.6%の精度向上を達成した。これは、GFCCsが感情認識タスクにおいて人間の聴覚認識をよりよくモデル化していることを示唆している。

ABSTRACT

Current approaches to speech emotion recognition focus on speech features that can capture the emotional content of a speech signal. Mel Frequency Cepstral Coefficients (MFCCs) are one of the most commonly used representations for audio speech recognition and classification. This paper proposes Gammatone Frequency Cepstral Coefficients (GFCCs) as a potentially better representation of speech signals for emotion recognition. The effectiveness of MFCC and GFCC representations are compared and evaluated over emotion and intensity classification tasks with fully connected and recurrent neural network architectures. The results provide evidence that GFCCs outperform MFCCs in speech emotion recognition.

研究の動機と目的

ガンマトーン周波数ケプストラル係数（GFCCs）が、メル周波数ケプストラル係数（MFCCs）と比較して、感情認識のためのスティーブス信号表現として優れているかどうかを調査すること。
全結合ネットワーク、LSTM、アテンションベースのLSTMを含む、複数のニューラルネットワークアーキテクチャにおけるGFCCsとMFCCsの性能を評価すること。
8クラスの感情分類および2クラスの強度分類タスクにおけるGFCCsとMFCCsの有効性を比較すること。
GFCCsがコッホリアの力学をモデル化する生物学的妥当性が、感情認識システムにおける性能向上に寄与するかどうかを特定すること。

提案手法

標準化されたパイプラインを用いてスティーブス信号からGFCCおよびMFCC表現を抽出した：前強調、フレーミング、ハミング窓処理、FFT、フィルターバンク適用（ガンマトーンまたはメル）、対数圧縮、およびDCT。
各MFCCおよびGFCCベクトルに対して、ターゲットフレームの±9フレーム（合計19フレーム）を連結することで文脈ベースの表現を生成し、1フレームあたり39次元の特徴ベクトルを生成した。
ReLUまたはシグモイド活性化関数、20%ドロップアウト、各隠れ層でのバッチ正規化を用いた全結合ニューラルネットワーク（FCNNs）を訓練した。
tanh活性化関数、ドロップアウトなし、入力長を一定に保つためにシーケンスパディングを820フレームに設定したLSTMおよびアテンションベースのLSTMモデルを訓練した。
過学習を防ぐために、15エポックの忍耐期間と、検証精度の最小改善閾値0.0005を用いたエアリー・ストッピングを適用した。
RAVDESSデータセットを75%のトレーニング、25%のテストに分割し、感情および強度の各クラスにバランスが取れた分布を確保した。すべての入力を平均除去および単位分散スケーリングで正規化した。

実験結果

リサーチクエスチョン

RQ1GFCCsは、多様なニューラルネットワークアーキテクチャにおいて、感情認識タスクでMFCCsよりも高い分類精度を提供するか？
RQ2強度分類（より繊細な感情次元）において、GFCCsとMFCCsの性能はどのように比較されるか？
RQ3GFCCsがコッホリア膜の運動をモデル化する生物学的妥当性が、感情認識における測定可能な性能向上に結びつくか？
RQ4アテンション機構は、順序モデリングタスクにおいてGFCCsとMFCCsの性能差をさらに拡大できるか？

主な発見

GFCCsは、全結合ネットワーク、LSTM、アテンションベースのLSTMを含むすべてのニューラルネットワークアーキテクチャにおいて、感情分類でMFCCsを上回り、平均で3.6%の精度向上を達成した。
感情分類において、GFCCベースのモデルはL(400)/A LSTMモデルで最高0.768のテスト精度を達成したのに対し、対応するMFCCモデルは0.749であった。
強度分類においても、GFCCsは一貫した向上を示し、最高性能のモデル（L(100)/A）は0.798の精度を達成したのに対し、MFCCの対応モデルは0.777であった。
全結合、LSTM、アテンションベースのLSTMのすべてのネットワークタイプにおいて、性能向上が確認されたため、GFCCsは頑健な特徴表現であると示された。
性能向上は特に深層アーキテクチャで顕著であり、GFCCsが感情的なスティーブスにおける階層的時系列パターンをよりよく捉えている可能性を示唆している。
結果は、GFCCsがコッホリアの力学をモデル化するという生物学的妥当性のおかげで、人間の聴覚認識に近いものとなっており、感情認識タスクにおいて優れた性能を発揮することを支持している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。