QUICK REVIEW

[論文レビュー] Audiovisual transfer learning for audio tagging and sound event detection

Wim Boes, Hugo Van hamme|arXiv (Cornell University)|Jun 9, 2021

Music and Audio Processing参考文献 20被引用数 8

ひとこと要約

本稿では、CRNNベースのモデルを用いて、事前学習済みの聴覚的および視覚的情報特徴量とスペクトル音響特徴量を統合することで、音声タギングおよび音声イベント検出における音声視覚連携学習を調査する。結果として、音声タギング（最大83.72％のマイクロ平均F1）および粗粒度の音声イベント検出において顕著な向上が得られたが、事前学習モデルの目的と時間的予測タスクとの不一致のため、細粒度検出では限界的な改善にとどまった。

ABSTRACT

We study the merit of transfer learning for two sound recognition problems, i.e., audio tagging and sound event detection. Employing feature fusion, we adapt a baseline system utilizing only spectral acoustic inputs to also make use of pretrained auditory and visual features, extracted from networks built for different tasks and trained with external data. We perform experiments with these modified models on an audiovisual multi-label data set, of which the training partition contains a large number of unlabeled samples and a smaller amount of clips with weak annotations, indicating the clip-level presence of 10 sound categories without specifying the temporal boundaries of the active auditory events. For clip-based audio tagging, this transfer learning method grants marked improvements. Addition of the visual modality on top of audio also proves to be advantageous in this context. When it comes to generating transcriptions of audio recordings, the benefit of pretrained features depends on the requested temporal resolution: for coarse-grained sound event detection, their utility remains notable. But when more fine-grained predictions are required, performance gains are strongly reduced due to a mismatch between the problem at hand and the goals of the models from which the pretrained vectors were obtained.

研究の動機と目的

スペクトル特徴量に加えて、事前学習済みの聴覚的および視覚的情報特徴量を用いた転移学習の有効性を、音声タギングおよび音声イベント検出タスクにおいて評価すること。
弱教師ありデータを用いた音声認識タスクにおいて、マルチモーダルな音声視覚統合が性能向上に寄与するかどうかを調査すること。
スペクトル特徴量、事前学習済み聴覚的特徴量、および事前学習済み視覚的特徴量といった異なる入力特徴量タイプが、時間的粒度の異なるタスクにおけるモデル性能に与える影響を分析すること。
事前学習済み特徴量が細粒度音声イベント検出において限界に達する理由、特に訓練目的の不一致に起因する要因を特定すること。
音声タギングおよび音声イベント検出タスクにおいて、事前学習特徴量を有するモデルとないモデルを包括的に比較すること。

提案手法

音声タギングおよび音声イベント検出の両タスクに共通して、ログメルスペクトログラム特徴量を入力として使用したCRNNベースラインモデルを学習する。
音声認識タスクで学習されたモデルから抽出した事前学習済み聴覚的特徴量と、画像分類タスクで学習されたモデルから抽出した視覚的特徴量を用いる。
特徴量統合は、CNNエンコーダーの入力層でスペクトル特徴量、聴覚的特徴量、視覚的特徴量を連結することで実施する。
時間的モデリングには2層のBiGRUを用い、マルチラベルフレームレベル予測のための線形層にシグモイド活性化関数を適用する。
クリップレベルの確率は線形プーリングにより算出され、固定の0.5の閾値を用いて二値判断がなされる。
学習には平均教師正則化法とデータオーグメンテーション（SpecAugment、mixup）を適用し、20回のランダム初期化を実施。バリデーション性能に基づきモデル選択が行われる。

実験結果

リサーチクエスチョン

RQ1スペクトル特徴量のみを用いる場合と比較して、事前学習済み聴覚的および視覚的情報特徴量を統合することで、音声タギングおよび音声イベント検出の性能が向上するか？
RQ2音声および視覚的特徴量のマルチモーダル統合は、特に弱教師あり設定下において認識性能にどのように影響を与えるか？
RQ3事前学習特徴量は、粗粒度タスクと細粒度タスクのどちらにより利益をもたらすか？
RQ4なぜ事前学習特徴量は細粒度音声イベント検出において効果が薄れるのか？その制限要因は何か？

主な発見

音声タギングにおいて、スペクトル特徴量と事前学習済み聴覚的・視覚的情報特徴量を統合した結果、クリップベースのマイクロ平均F1スコアが83.72％に達し、スペクトル特徴量のみのベースライン（76.22％）と比較して7.50％の絶対的向上を示した。
事前学習済み聴覚的特徴量のみを用いることで、音声タギング性能は81.03％F1に向上し、スペクトル特徴量のみのベースライン（76.22％）を上回った。これは、異なる特徴量タイプ間で補完的な情報が存在することを示している。
視覚的特徴量のみを用いるとF1スコアは61.60％にとどまったが、聴覚的特徴量と統合することで80.04％に上昇した。これはマルチモーダル学習の価値を示している。
粗粒度音声イベント検出（セグメントベースのF1）においても、事前学習特徴量の統合により継続的な利益が得られ、最良のモデルで76.86％のF1スコアを達成。スペクトル特徴量のみのベースライン（70.09％）と比較して6.77％の向上を示した。
細粒度音声イベント検出（イベントベースのF1）では、事前学習特徴量による性能向上がほとんど見られず、最良のモデルでも32.65％のF1スコアにとどまり、スペクトル特徴量のみのベースライン（33.03％）をわずかに下回った。
事前学習済みの聴覚的および視覚的モデルに時間的モデリング機能が欠如していることが、細粒度検出における性能の悪さの主な要因であると考えられ、これらのモデルは時間的境界予測を最適化して訓練されていない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。