QUICK REVIEW

[論文レビュー] Sound Event Detection in Multichannel Audio Using Spatial and Harmonic Features

Sharath Adavanne, Giambattista Parascandolo|arXiv (Cornell University)|Jun 7, 2017

Music and Audio Processing参考文献 18被引用数 87

ひとこと要約

本論文は、ステレオ空間特徴と調和的ピッチベースの特徴を、多ラベルRNN-LSTMと組み合わせて、ステレオ録音における多声音イベント検出を改善することを提案する。実データセットにおいて、バイノーラル特徴がモノラルチャンネルのベースラインを上回ることを示している。

ABSTRACT

In this paper, we propose the use of spatial and harmonic features in combination with long short term memory (LSTM) recurrent neural network (RNN) for automatic sound event detection (SED) task. Real life sound recordings typically have many overlapping sound events, making it hard to recognize with just mono channel audio. Human listeners have been successfully recognizing the mixture of overlapping sound events using pitch cues and exploiting the stereo (multichannel) audio signal available at their ears to spatially localize these events. Traditionally SED systems have only been using mono channel audio, motivated by the human listener we propose to extend them to use multichannel audio. The proposed SED system is compared against the state of the art mono channel method on the development subset of TUT sound events detection 2016 database. The usage of spatial and harmonic features are shown to improve the performance of SED.

研究の動機と目的

実生活の多チャネル音声における重なる音イベントの自動検出を動機づける。
空間手がかりとピッチ関連特徴を活用して、SEDをモノラル音声の枠を超えて拡張する。
ステレオフレームワークでlog mel-band energies、pitch、TDOAを組み合わせると検出性能が向上することを示す。
TUT SED 2016 開発サブセットでアプローチを評価し、モノチャンネルのベースラインと比較する。

提案手法

両方のステレオチャンネルの log mel-band energies を抽出する（40 mel-bands）。
調和特徴を計算する: 絶対ピッチとその周期性；各フレームごとにチャンネルあたり上位3つの支配的ピッチ。
5つの mel-bands に across GCC-PHAT を用いてマルチバンド TDOA特徴を計算し、3つのウィンドウ長（120, 240, 480 ms）で中央値フィルタを適用する（tdoa と tdoa3）。
特徴をマルチラベル入力ベクトルに結合し、シグモイド出力を持つ2層の隠れ層を持つ LSTM RNN（2x32 ユニット）を訓練してマルチラベル分類を行う。
入力を正規化し、シーケンスを25フレームのチャンクに分割、Adam を用いたバイナリクロスエントロピー損失で訓練、早期停止を適用し、アクティビティ判断の閾値を0.5に設定して出力を決定する。

実験結果

リサーチクエスチョン

RQ1ステレオの log mel-band energies に空間的（TDOA）および調和的（pitch）特徴を組み込むと、モノチャンネルのベースラインよりも多声 SED が改善されるか？
RQ2提案されたマルチチャネル特徴セットは、実生活のさまざまな文脈（家庭や住宅地）において、モノチャネルシステムと比較してどのように性能を発揮するか。
RQ3SED におけるセグメントベースのエラーレートとF値に対する、異なる特徴の組み合わせの影響は何か？

主な発見

空間的特徴と調和的特徴をステレオ入力と組み合わせることで、モノのベースラインに対して多声 SED の性能が向上する。
提案されたバイノーラル特徴（mel_2 および関連の組み合わせ）は、文脈を問わず、競争力のあるまたは優れた F-score を、同程度のエラー率で達成する。
いくつかの特徴の組み合わせがモノチャンネルのベースラインを上回り、実生活の録音における SED において空間的手がかり（TDOA）を取り入れる価値を示している。
小規模なデータセット（約60分）では、バイノーラル特徴は有望で、いくつかの構成が関連チャレンジの提出で最高成績を達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。