Skip to main content
QUICK REVIEW

[論文レビュー] Adversarial Unsupervised Domain Adaptation For Acoustic Scene Classification

Shayan Gharib, Konstantinos Drossos|arXiv (Cornell University)|Aug 17, 2018
Music and Audio Processing参考文献 1被引用数 44
ひとこと要約

ターゲットラベルなしでソースドメインモデルをターゲットドメインデータへ適応させる無教師あり対向ドメイン適応法により、未見ターゲットの精度を約10%向上させる、音響風景分類の手法。

ABSTRACT

A general problem in acoustic scene classification task is the mismatched conditions between training and testing data, which significantly reduces the performance of the developed methods on classification accuracy. As a countermeasure, we present the first method of unsupervised adversarial domain adaptation for acoustic scene classification. We employ a model pre-trained on data from one set of conditions and by using data from other set of conditions, we adapt the model in order that its output cannot be used for classifying the set of conditions that input data belong to. We use a freely available dataset from the DCASE 2018 challenge Task 1, subtask B, that contains data from mismatched recording devices. We consider the scenario where the annotations are available for the data recorded from one device, but not for the rest. Our results show that with our model agnostic method we can achieve $\sim 10\%$ increase at the accuracy on an unseen and unlabeled dataset, while keeping almost the same performance on the labeled dataset.

研究の動機と目的

  • 音響シーン分類(ASC)における訓練時とテスト時のドメインシフトに対処する。
  • ASCに対してモデルに依存しない無監督対向ドメイン適応フレームワークを提案する。
  • ラベルなしターゲットドメインデータを活用することで、ソースドメインの性能を保ちつつ、未見ドメインの精度を改善することを示す。

提案手法

  • ラベル付きのソースデータ X^S に対して、ソースドメインモデル M_S およびラベル分類器 C を事前学習する。
  • ターゲットドメインモデル M_T とドメイン識別器 D を用いた対向ステップで、M_S(X^S) と M_T(X^T) の分布を整合させる。
  • M_S と M_T を共有しない(ウェイト結合なし)、M_T を M_S のパラメータで初期化する。
  • 適応ステップにラベル分類器 C を組み込み、ドメイン整合時に監督付き学習信号を提供する。
  • L_D を最適化して D が source vs. target を識別できるようにし、L_M_T を最適化して D を騙すと同時に C を用いて source-like targets を分類させる。
  • X^T 上で M_T を C とともにテストし、ターゲットドメインの予測を得る。

実験結果

リサーチクエスチョン

  • RQ1ターゲットラベルなしで、ミスマッチな音響ドメイン間の潜在表現を無監督対向ドメイン適応で整列できるか?
  • RQ2適応中にラベル分類器 C を組み込むことで、ソースドメインの性能を大きく損なうことなくターゲットドメインの精度を改善できるか?
  • RQ3本手法はアーキテクチャに依存せず、異なる ASC モデル間で効果的か?
  • RQ4未見ターゲットデータの性能は適応前後でどう変わるか?

主な発見

ドメインKaggle モデル 非適応Kaggle モデル 適応DCASE モデル 非適応DCASE モデル 適応
ソース65.25%65.37%61.71%61.23%
ターゲット20.28%31.67%19.17%25.28%
  • 2 つの ASC モデル(Kaggle および DCASE のベースライン)で、適応後のターゲットドメイン精度はそれぞれ 20.28% から 31.67%、19.17% から 25.28% に向上した。
  • ソースドメイン精度はほぼ安定し、Kaggle モデルはわずかに増加(65.25% から 65.37%)、DCASE モデルはわずかに低下(61.71% から 61.23%)した。
  • 適応はモデル間で見習われる未見ターゲットドメイン精度を約 10% の絶対増分で達成した。
  • 適応後、ターゲットドメインラベルに対する正解分類が大幅に改善された混同行列を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。