QUICK REVIEW

[論文レビュー] Sound event detection using weakly labeled dataset with stacked convolutional and recurrent neural network

Sharath Adavanne, Tuomas Virtanen|arXiv (Cornell University)|Oct 9, 2017

Music and Audio Processing参考文献 20被引用数 42

ひとこと要約

本稿では、弱教師あり音声データ（タイミング情報なし、イベントクラスのみ）から音声イベント境界（強教師ラベル）を検出するため、二重予測ヘッドを備えたスタックド畳み込みニューラルネットワークと再帰ニューラルネットワークを提案する。フレーム単位の強教師ラベル（弱教師ラベルから複製）と弱教師ラベルを組み合わせて、適応的損失重みを用いた同時学習により、155時間のデータセットで強教師ラベル誤差率0.84、弱教師ラベルFスコア43.3％を達成し、最小限の監視情報からの自己教師的時系列局所化が有効であることを示している。

ABSTRACT

This paper proposes a neural network architecture and training scheme to learn the start and end time of sound events (strong labels) in an audio recording given just the list of sound events existing in the audio without time information (weak labels). We achieve this by using a stacked convolutional and recurrent neural network with two prediction layers in sequence one for the strong followed by the weak label. The network is trained using frame-wise log mel-band energy as the input audio feature, and weak labels provided in the dataset as labels for the weak label prediction layer. Strong labels are generated by replicating the weak labels as many number of times as the frames in the input audio feature, and used for strong label layer during training. We propose to control what the network learns from the weak and strong labels by different weighting for the loss computed in the two prediction layers. The proposed method is evaluated on a publicly available dataset of 155 hours with 17 sound event classes. The method achieves the best error rate of 0.84 for strong labels and F-score of 43.3% for weak labels on the unseen test split.

研究の動機と目的

時系列アノテーションが存在しないイベントクラスリスト（弱教師ラベル）のみから、正確な音声イベント境界（強教師ラベル）を学習する深層学習手法の開発。
強教師ラベルの高いアノテーションコストを低減するため、大規模な音声イベント検出に弱教師ありデータを活用する。
弱教師学習からのフレーム単位の予測を設計することで、音声イベント検出における時間分解能の向上を図る。
強教師ラベルと弱教師ラベルの予測ヘッド間の損失重みの影響がモデル性能に与える影響を調査する。
17種類の音声イベントクラスと155時間の音声を含む大規模かつ公開可能なデータセット上で、手法の妥当性を検証する。

提案手法

音声から抽出したログメルバンドエネルギー特徴量を処理するバックボーンとして、スタックド畳み込みニューラルネットワークと再帰ニューラルネットワーク（CNN-GRU）を用いる。
二つの逐次的予測ヘッドを備える：一つはフレーム単位の強教師ラベル（イベントの開始・終了時刻）を、もう一つは弱教師ラベル（クリップ内でのイベント存在）を予測する。
強教師ラベルは、入力音声特徴シーケンスの全フレームにわたり弱教師ラベルベクトルを複製することで生成される。
モデルは、強教師ラベル予測用と弱教師ラベル予測用の二つの損失関数の重み付き組み合わせを用いて学習される。
強教師ラベルと弱教師ラベルの予測ヘッドに対する損失重みは、訓練中に調整され、ネットワークが時系列境界の学習に注力するか、イベント存在の学習に注力するかを制御する。
類似度マップを用いて、ネットワークがどの入力特徴に注目しているかを可視化し、学習されたイベント表現の解釈可能性を提供する。

実験結果

リサーチクエスチョン

RQ1タイミング情報が一切与えられない弱教師あり音声データから、深層ニューラルネットワークが正確な音声イベント境界を学習できるか？
RQ2強教師ラベルと弱教師ラベルの損失重みの相対的な割合が、モデルの正確な時系列境界の学習能力に与える影響は何か？
RQ3本手法のアーキテクチャは、弱教師ありデータのみで学習した場合、既存手法を上回る性能を示すか？
RQ4どのような種類の音声イベントが最も・最も信頼性高く検出され、その理由は何か？
RQ5ネットワークの内部表現が、特定のイベントに適した関連する音響パターンを学習していると解釈できる程度はどの程度か？

主な発見

本手法は、DCASE 2017データセットの未観測テストスプリットにおいて、強教師ラベル誤差率0.84、弱教師ラベルFスコア43.3％を達成した。
予測ヘッドの両方の損失重みを等しく設定した場合に最良の性能が得られ、当初の直感とは反対に、弱教師ラベルに高い重みを割り当てるべきではないことが示された。
強教師ラベル損失に高い重みを設定した場合、強教師ラベル検出性能（ER = 0.84）は向上したが、弱教師ラベル性能は劣化し、両者の目的の間にはトレードオフがあることが示された。
車両関連の音（例：電車、スケートボード）、警告信号（例：消防車のサイレン、民防サイレン）はFスコア60％以上を達成したが、救急車のサイレンや車のアラームはFスコアが0であった。
類似度マップの可視化により、ネットワークが実際に音声イベントに対応する入力の時間領域に注目していることが確認された。
アップサンプリングやセグメントベースの学習に依存する従来手法よりも優れた性能を示し、エンドツーエンドのフレーム単位予測設計により、より高い時間分解能が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。