QUICK REVIEW

[論文レビュー] A breakthrough in Speech emotion recognition using Deep Retinal Convolution Neural Networks

Yafeng Niu, Dongsheng Zou|arXiv (Cornell University)|Jul 12, 2017

Emotion and Mood Recognition参考文献 4被引用数 37

ひとこと要約

本稿では、網膜および凸レンズの像形成原理に着想を得た画期的なデータ拡張技術を活用して、さまざまなスペクトログラムサイズを生成することで、トレーニングデータの多様性を著しく向上させる、深層網膜畳み込みニューラルネットワーク（DRCNN）を提案する。この手法は、平均認識精度が99％を超えることを達成し、認識精度および認識可能な感情の数の両面で先行手法を上回る。

ABSTRACT

Speech emotion recognition (SER) is to study the formation and change of speaker's emotional state from the speech signal perspective, so as to make the interaction between human and computer more intelligent. SER is a challenging task that has encountered the problem of less training data and low prediction accuracy. Here we propose a data augmentation algorithm based on the imaging principle of the retina and convex lens, to acquire the different sizes of spectrogram and increase the amount of training data by changing the distance between the spectrogram and the convex lens. Meanwhile, with the help of deep learning to get the high-level features, we propose the Deep Retinal Convolution Neural Networks (DRCNNs) for SER and achieve the average accuracy over 99%. The experimental results indicate that DRCNNs outperforms the previous studies in terms of both the number of emotions and the accuracy of recognition. Predictably, our results will dramatically improve human-computer interaction.

研究の動機と目的

音声感情認識（SER）における限られたトレーニングデータの課題に対処するため、画期的なデータ拡張戦略を開発すること。
網膜イメージングに着想を得た新しいニューラルネットワークアーキテクチャを設計することで、ディープラーニングを用いてSERの認識精度を向上させること。
音声信号における複数の感情状態を高精度で認識できること。
光学的原理に基づく合成データ生成を通じて、SERモデルのロバスト性と一般化性能を向上させること。

提案手法

網膜および凸レンズの像形成原理に基づいたデータ拡張アルゴリズムを開発し、仮想的な凸レンズとスペクトログラムの間の距離の変化をシミュレートすることで、複数のスケーリングされたスペクトログラム表現を生成する。
仮想的な光学系における焦点距離と物体距離を変更することで、多様なサイズのスペクトログラムを生成し、トレーニングデータのばらつきを効果的に増加させる。
拡張されたスペクトログラムから高レベルの特徴を抽出するため、深層網膜畳み込みニューラルネットワーク（DRCNN）と呼ばれる新しい深層ニューラルネットワークアーキテクチャを提案する。
DRCNNは階層的な特徴学習を実現する複数の畳み込み層を採用し、音声信号内の複雑な感情パターンを捉える。
モデルは拡張されたスペクトログラムデータ上でエンドツーエンドに訓練され、感情分類の最適化が行われる。
ネットワークアーキテクチャは網膜構造の空間的処理を模倣しており、特徴抽出の効率性が向上する。

実験結果

リサーチクエスチョン

RQ1網膜イメージングに着想を得た生物学的インスピレーションに基づくデータ拡張技術は、音声感情認識におけるデータ多様性とモデル一般化性能を向上させることができるか？
RQ2網膜構造にインspiredされた画期的な深層ニューラルネットワークアーキテクチャは、既存のモデルよりも高い精度でSERを達成できるか？
RQ3提案手法は、限られた実際のトレーニングデータでも、複数の感情カテゴリに対して高い性能を維持できるか？
RQ4光学シミュレーションに基づくデータ拡張は、モデルのロバスト性と認識精度をどの程度向上させるか？

主な発見

提案されたDRCNNモデルは、音声感情認識タスクにおいて平均認識精度が99％を超えることを達成した。
網膜イメージング原理に基づくデータ拡張技術は、多様なスペクトログラムスケールの生成により、トレーニングデータセットの有効サイズを著しく増加させることに成功した。
DRCNNモデルは、認識精度および検出可能な感情クラスの数の両面で、以前の最先端手法を上回った。
網膜にインspiredされた光学シミュレーションをデータ拡張に統合することで、モデルの一般化性能とロバスト性が顕著に向上した。
本手法は、限られた実世界のトレーニングデータでも強力な性能を示し、低データ環境下での有効性が顕著に裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。