QUICK REVIEW

[論文レビュー] Improving Automatic Emotion Recognition from speech using Rhythm and Temporal feature

Mayank Bhargava, Tim Polzehl|arXiv (Cornell University)|Mar 7, 2013

Emotion and Mood Recognition参考文献 18被引用数 30

ひとこと要約

この論文は、音声分析から得られるリズムおよび時間的特徴を、従来の特徴（MFCC、ピッチ、エネルギーなど）と統合することで、音声ベースの自動感情認識を改善している。発話の有声音、無声音、無音領域に分けるセグメンテーションを実施し、特徴選択にIGRフィルタを適用することで、話者依存設定下でベルリン感情データベースにおいて80.60%の精度を達成した。これは、リズムおよび時間的手がかりが感情認識システムにおいて価値を持つことを示している。

ABSTRACT

This paper is devoted to improve automatic emotion recognition from speech by incorporating rhythm and temporal features. Research on automatic emotion recognition so far has mostly been based on applying features like MFCCs, pitch and energy or intensity. The idea focuses on borrowing rhythm features from linguistic and phonetic analysis and applying them to the speech signal on the basis of acoustic knowledge only. In addition to this we exploit a set of temporal and loudness features. A segmentation unit is employed in starting to separate the voiced/unvoiced and silence parts and features are explored on different segments. Thereafter different classifiers are used for classification. After selecting the top features using an IGR filter we are able to achieve a recognition rate of 80.60 % on the Berlin Emotion Database for the speaker dependent framework.

研究の動機と目的

従来の音響特徴に加えて、リズムおよび時間的特徴を導入することで、音声からの自動感情認識を改善すること。
言語的および言語学的リズム特徴が、言語的トランスクリプションなしに、音響知識のみを用いて音声信号に適用可能かどうかを検討すること。
有声音、無声音、無音領域に分けることで、文脈に応じた特徴を抽出し、分類精度を向上させること。
情報ゲインレシオ（IGR）フィルタを用いた特徴選択後の複数の分類器の性能を評価すること。
ハイブリッド特徴集合を用いて、話者依存の感情認識フレームワークでより高い認識精度を達成すること。

提案手法

本手法は、有声音／無声音活動検出メカニズムを用いて音声信号を有声音、無声音、無音領域にセグメンテーションすることから始める。
リズム特徴は、言語的および音声学的原則に基づいて抽出され、言語的トランスクリプションなしに音響信号に適応されている。
時間的および音量特徴は、セグメンテーション領域上で計算され、音声内の動的な変化を捉える。
情報ゲインレシオ（IGR）フィルタを用いた特徴選択プロセスを実施し、最も判別能の高い特徴を特定する。
選択された特徴集合上で複数の分類器を学習・評価し、最適な性能を特定する。
最終的な認識精度は、話者依存評価プロトコルに従い、ベルリン感情データベース上で測定される。

実験結果

リサーチクエスチョン

RQ1音響信号から純粋に抽出されたリズムおよび時間的特徴は、感情認識性能の向上に寄与するか？
RQ2言語的分析から得られるリズム特徴は、トランスクリプションなしに生の音声信号に適用した場合、どの程度の性能を示すか？
RQ3有声音、無声音、無音領域に音声をセグメンテーションすることで、特徴表現および分類精度にどのような影響を与えるか？
RQ4時間的および音量特徴は、従来の特徴と組み合わせた場合、感情認識にどの程度寄与するか？
RQ5話者依存設定下で、どの特徴と分類器の組み合わせが最高の認識精度を達成するか？

主な発見

リズムおよび時間的特徴を統合することで、MFCC やピッチといった標準的特徴を超えて、感情認識性能が顕著に向上した。
有声音、無声音、無音領域へのセグメンテーションにより、文脈に配慮した特徴抽出が可能となり、モデルの識別能が向上した。
情報ゲインレシオ（IGR）フィルタは、最も関連性の高い特徴を的確に特定し、洗練された効果的な特徴集合を生成した。
提案手法は、話者依存フレームワーク下でベルリン感情データベースにおいて80.60%の認識精度を達成し、ベースライン手法を上回った。
時間的および音量特徴は、リズム的手がかりと組み合わせることで、分類に有意義に寄与した。
結果から、音響信号から単独で抽出されたリズム特徴が、感情認識システムにおいて有効に機能することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。