[論文レビュー] A multi-device dataset for urban acoustic scene classification
DCASE 2018のタスク2018のために、6つの欧州都市にまたがるマルチデバイス録音を含むTUT Urban Acoustic Scenes 2018データセットを導入し、マッチ済みデバイス条件とミスマッチデバイス条件の両方でのサブタスクに対するCNNベースラインを提示します。
This paper introduces the acoustic scene classification task of DCASE 2018 Challenge and the TUT Urban Acoustic Scenes 2018 dataset provided for the task, and evaluates the performance of a baseline system in the task. As in previous years of the challenge, the task is defined for classification of short audio samples into one of predefined acoustic scene classes, using a supervised, closed-set classification setup. The newly recorded TUT Urban Acoustic Scenes 2018 dataset consists of ten different acoustic scenes and was recorded in six large European cities, therefore it has a higher acoustic variability than the previous datasets used for this task, and in addition to high-quality binaural recordings, it also includes data recorded with mobile devices. We also present the baseline system consisting of a convolutional neural network and its performance in the subtasks using the recommended cross-validation setup.
研究の動機と目的
- 多様な実世界条件を反映するために、マルチデバイス録音を含む大規模な都市音響シーンデータセットを確立する。
- 高品質およびマルチデバイス録音に対するCNNのベースライン性能を評価する。
- デバイスのミスマッチが音響シーン分類性能に与える影響を調査する。
- 公正なベンチマークのための透明なデータ分割を備えた開発・評価パイプラインを提供する。
提案手法
- 10秒分のセグメントからログメルエネルギー(40バンド)を計算する。
- 40x500の入力(ログメルエネルギー)を用いて、2つの畳み込み層と1つの全結合層を持つCNNを訓練する。
- 訓練にはバッチ正規化とAdamオプティマイザ(lr=0.001)を用いる。
- リークを避けるために、場所ベースの分割で開発/訓練/評価データを分割する。
- 3つのサブタスク下でベースラインを提供する:A(マッチした高品質デバイス)、B(並行データを用いたミスマッチデバイス)、C(外部データを許容)。
- マルチデバイス評価を堅牢にするため、4つのデバイス間で時間同期した並列録音を使用する。
実験結果
リサーチクエスチョン
- RQ1マルチデバイス録音を含む大規模で都市間のデータセットは分類性能にどのような影響を与えるか?
- RQ2マッチ条件(サブタスクA)とデバイスミスマッチ(サブタスクB)における基礎となるCNNの性能はどうなるか?
- RQ3デバイスの多様性と並列データは、デバイス間および評価条件全体の一般化へどのような影響を与えるか?
- RQ4外部データを用いた転移学習(サブタスクC)は、現実的なミスマッチ条件下での性能を改善できるか?
主な発見
| 音響シーン | 開発用データセット(サブタスクA) | 評価用データセット(サブタスクA) |
|---|---|---|
| 空港 | 72.9 | 55.3 |
| バス | 62.9 | 66.1 |
| 地下鉄 | 51.2 | 60.8 |
| 地下鉄駅 | 55.4 | 52.8 |
| 公園 | 79.1 | 79.4 |
| 広場 | 40.4 | 33.9 |
| ショッピングモール | 49.6 | 64.2 |
| 街路(歩行者) | 50.0 | 55.3 |
| 街路(交通) | 80.5 | 81.9 |
| 路面電車 | 55.1 | 60.0 |
| 平均 | 59.7 | 61.0 |
- ベースラインCNNは、サブタスクAで10シーンに対して開発時の精度61.0%の評価精度を61.0%の評価精度で達成。
- サブタスクAにおいて、開発/評価のシーン別性能は、開発40.4%〜80.5%、評価33.9%〜81.9%の範囲で、Public Squareが最も低いクラス。
- サブタスクBは、デバイスAに対するテスト時にデバイスB/C/Dで著しい低下を示し、デバイスミスマッチの影響を明らかにする;B/Cでの平均性能はAより著しく低い。
- サブタスクAのシーン別平均性能は開発59.7%、評価61.0%。
- デバイスD(圧縮音声)はミスマッチ下で特に性能が悪く、デバイス間一般化における録音形式の影響を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。