QUICK REVIEW

[論文レビュー] Sample Mixed-Based Data Augmentation for Domestic Audio Tagging

Shengyun Wei, Kele Xu|arXiv (Cornell University)|Aug 12, 2018

Music and Audio Processing参考文献 21被引用数 23

ひとこと要約

本論文は、注意機構を備えたCRNNを用いた国内音声タギングにおける一般化性能の向上を目的として、サンプル混合ベースのデータ拡張（具体的には、mixup、SamplePairing、および外挿）を提案する。DCASE 2016 Task 4データセットにおいて、α=1.5のmixupが、最先端の等誤差率（EER）0.10を達成し、ベースラインを上回り、優れた安定性と一般化性能を示した。

ABSTRACT

Audio tagging has attracted increasing attention since last decade and has various potential applications in many fields. The objective of audio tagging is to predict the labels of an audio clip. Recently deep learning methods have been applied to audio tagging and have achieved state-of-the-art performance, which provides a poor generalization ability on new data. However due to the limited size of audio tagging data such as DCASE data, the trained models tend to result in overfitting of the network. Previous data augmentation methods such as pitch shifting, time stretching and adding background noise do not show much improvement in audio tagging. In this paper, we explore the sample mixed data augmentation for the domestic audio tagging task, including mixup, SamplePairing and extrapolation. We apply a convolutional recurrent neural network (CRNN) with attention module with log-scaled mel spectrum as a baseline system. In our experiments, we achieve an state-of-the-art of equal error rate (EER) of 0.10 on DCASE 2016 task4 dataset with mixup approach, outperforming the baseline system without data augmentation.

研究の動機と目的

DCASE 2016のような小規模データセットにおいて、限られた学習データによる過学習を緩和すること。
入力の時間周波数表現に対して、サンプル混合ベースのデータ拡張技術を適用することで、モデルの一般化性能を向上させること。
mixup、SamplePairing、および外挿の有効性を、音声タギングタスクにおける性能向上の観点から評価すること。
安定性と性能の向上を目的とした、mixupのハイパーパrameter α係数の最適値を特定すること。
少数クラス（例：「大人男性の発話（m）」）および全体的なモデルの頑健性に与える、異なるデータ拡張戦略の影響を比較すること。

提案手法

αをパrameterとするベータ分布を用いて、入力空間上で2つの学習サンプルを線形結合することで、mixupデータ拡張を適用する。
1つの音声スペクトログラムを別のものに重ねることで新しいサンプルを生成するSamplePairingを用いる。この際、最初のサンプルのラベルを保持する。
学習分布の外側に位置するサンプルを生成することで多様性を高める、外挿ベースの拡張を採用する。
7個の畳み込みブロック、バッチ正則化、マックスプーリング、ドロップアウト、ELU活性化関数を備えたCRNNアーキテクチャを特徴抽出に用いる。
関連する時間的セグメントに注目し、ノイズの影響を低減するため、注目メカニズムを統合する。
二値交差エントロピー損失を用いて学習を実行し、検証損失に基づく早期停止を適用することで、過学習を防止する。

実験結果

リサーチクエスチョン

RQ1DCASE 2016 Task 4のような小規模データセットにおける音声タギングにおいて、サンプル混合ベースのデータ拡張は一般化性能の向上に寄与するか？
RQ2他のサンプル混合手法（例：SamplePairing、外挿）と比較して、mixupの性能と安定性はどのように異なるか？
RQ3EERと分散の観点から、音声タギングにおけるmixupハイパーパrameter αの最適値は何か？
RQ4異なる拡張戦略は、『大人男性の発話（m）』のような少数クラスの分類にどのように影響を与えるか？
RQ5データ拡張は、訓練と検証の性能の差を縮小させ、一般化性能の向上を示すか？

主な発見

α=1.5のmixupは、DCASE 2016 Task 4の評価セットで、最先端のEER 0.10を達成し、拡張なしのベースラインCRNNを上回った。
α=1.5におけるEERの分散は4.11×10⁻³と最小であり、モデルの安定性が優れていることを示した。
微調整なしのSamplePairingは、固定された補間によりラベルの混同が生じ、特に『大人男性の発話（m）』のような少数クラスで性能が低かった。
αが増加するにつれて訓練精度は低下したが、検証損失はα=1.5で最小化され、一般化性能の向上が示された。
mixupを適用しないモデルでは、エポックが進むにつれて訓練損失と検証損失の差が拡大し、過学習の兆候が見られたのに対し、mixupはこの乖離を軽減した。
提案されたCRNNにmixupを適用したモデルは、EERが0.15、0.13、0.13であったベースラインモデル（DAE-DNN、CGRNN、ATT-LOC）よりも優れた一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。