QUICK REVIEW

[論文レビュー] Cross Corpus Speech Emotion Classification- An Effective Transfer Learning Technique.

Siddique Latif, Rajib Rana|arXiv (Cornell University)|Jan 19, 2018

Speech Recognition and Synthesis被引用数 28

ひとこと要約

本論文は、深層信念ネットワーク（DBNs）を用いたクロスコーパスおよびクロスランゲージ音声感情認識を調査し、特に多言語データと限られたターゲットセットの学習を伴う、多様なコーパス間での転移学習が、従来の手法（スパースオートエンコーダーやSVM）よりも顕著に精度を向上させることを示している。DBNsは判別モデルを上回る性能を発揮し、リソースが限られた状況下での感情認識において、一般化能力の優位性を示している。

ABSTRACT

Cross-corpus speech emotion recognition can be a useful transfer learning technique to build a robust speech emotion recognition system by leveraging information from various speech datasets - cross-language and cross-corpus. However, more research needs to be carried out to understand the effective operating scenarios of cross-corpus speech emotion recognition, especially with the utilization of the powerful deep learning techniques. In this paper, we use five different corpora of three different languages to investigate the cross-corpus and cross-language emotion recognition using Deep Belief Networks (DBNs). Experimental results demonstrate that DBNs with generalization power offers better accuracy than a discriminative method based on Sparse Auto Encoder and SVM. Results also suggest that using a large number of languages for training and using a small fraction of target data in training can significantly boost accuracy compared to using the same language for training and testing.

研究の動機と目的

クロスコーパスおよびクロスランゲージ音声感情認識における転移学習の有効性を、深層生成モデルを用いて評価すること。
スパースオートエンコーダーやSVMといった判別モデルと比較して、深層信念ネットワーク（DBNs）の感情分類性能を評価すること。
認識精度を最大化する最適な学習設定（例えば、多言語データの使用やターゲットセットの小さな割合の利用）を特定すること。

提案手法

本研究では、複数のコーパスから得られる音声特徴量の階層的表現を学習するための主なモデルとして、深層信念ネットワーク（DBNs）を採用している。
3つの異なる言語で構成される5つのコーパスからの音声データを用いて、DBNベースのシステムの学習と評価が行われた。
転移学習は、ソースコーパスでDBNを事前学習し、限られたデータのターゲットコーパスで微調整することで実施された。
モデルは、グリーディな層ごとの事前学習に続いて、判別的微調整を実施することで、感情分類性能を最適化した。
感情認識の評価には標準的な指標が用いられ、同じデータ分割を用いてDBNsとスパースオートエンコーダー、SVMとの比較が行われた。
実験設定には、多様なデータセット間での一般化能力を評価するためのクロスコーパスおよびクロスランゲージ評価が含まれている。

実験結果

リサーチクエスチョン

RQ1DBNを用いた転移学習は、スパースオートエンコーダーやSVMといった判別モデルと比較して、クロスコーパス音声感情認識においてどのように異なるか？
RQ2訓練時に複数の言語を用いることで、リソースが限られたターゲット環境における認識精度にどのような影響を与えるか？
RQ3多言語事前学習を活用しながら、ターゲット言語データの小さな割合を組み合わせることで、性能向上が著しく見られるか？
RQ4どのような設定において、クロスコーパス転移学習が感情分類の精度を最大限に引き上げるか？

主な発見

DBNsは、クロスコーパス音声感情認識において、スパースオートエンコーダーやSVMを上回る高い精度を達成しており、優れた一般化能力を示している。
事前学習段階で多数の言語を用いることで、ターゲットコーパスにおける性能が顕著に向上し、ターゲットデータが限られても有効である。
多言語ソースデータを活用しながら、ターゲットセットの小さな割合のデータで学習を行うことで、同言語での訓練・テストよりも高い精度が得られた。
結果から、多様なコーパスおよび言語をまたがる転移学習が、頑健な音声感情認識システム構築の有効な戦略であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。