QUICK REVIEW

[論文レビュー] Curriculum Audiovisual Learning

Di Hu, Zheng Wang|arXiv (Cornell University)|Jan 26, 2020

Subtitles and Audiovisual Media参考文献 29被引用数 33

ひとこと要約

この論文は、ソフトクラスター化コンテンツ検出器と、単純なシーンから複雑なシーンへ訓練するカリキュラム付き学習戦略を持つ柔軟な音声-映像モデルを提示します（音源数の変動）。このアプローチは単一モーダル表現の改善、クロスモーダル整合、外部の視覚監視なしでの音響定位と音源分離の強力な性能をもたらします。

ABSTRACT

Associating sound and its producer in complex audiovisual scene is a challenging task, especially when we are lack of annotated training data. In this paper, we present a flexible audiovisual model that introduces a soft-clustering module as the audio and visual content detector, and regards the pervasive property of audiovisual concurrency as the latent supervision for inferring the correlation among detected contents. To ease the difficulty of audiovisual learning, we propose a novel curriculum learning strategy that trains the model from simple to complex scene. We show that such ordered learning procedure rewards the model the merits of easy training and fast convergence. Meanwhile, our audiovisual model can also provide effective unimodal representation and cross-modal alignment performance. We further deploy the well-trained model into practical audiovisual sound localization and separation task. We show that our localization model significantly outperforms existing methods, based on which we show comparable performance in sound separation without referring external visual supervision. Our video demo can be found at https://youtu.be/kuClfGG0cFU.

研究の動機と目的

異種のシーン複雑さ（音源数の変動）における音声映像コンテンツ整合の学習に取り組む。
音声/映像コンポーネントを識別し潜在的なクロスモーダル整合を推定するソフトクラスタリングコンテンツ検出器を開発する。
Simple to complex scenes から訓練するCurriculum AudioVisual Learning (CAVL) を導入し、収束を改善する。
定位と分離タスクを通じて単一モーダル表現の品質とクロスモーダル認識を示す。

提案手法

音声をスペクトログラムとして表現し、映像を画像特徴マップとして表現する。チャンネル空間でソフトK-meansクラスタリングを適用し、潜在的な音源や物体を発見する。
構造化類似度目的関数と対照学習損失を用いて、音声と映像のクラスタ中心を一致させることでクロスモーダル整合を計算する。
データを音源数でソートし、それに応じてクラスタ数を調整する（k_a, k_v）ことによりカリキュラムで訓練する。
音声特徴から予測される期待される音源数を予測するポアソン回帰ネットワークでシーンの複雑さを推定する。
音声中心を映像中心にマッチングし、割り当てを空間マスクとして投影して定位を実現する。
映像ガイド付きサウンドメーカー表現を分離ネットワークに入力して混合音からターゲット音を分離することで映像と聴覚の音声分離を行う。

実験結果

リサーチクエスチョン

RQ1音源数が変化するシーンで、強い注釈なしに頑健な音声映像コンテンツ整合をどのように学習できるか？
RQ2ソフトクラスタリングベースの検出器と潜在的整合目標が、外部の視覚監視なしで効果的なクロスモーダル認識と下流タスク（定位と分離）を可能にするか？
RQ3単純なシーンから複雑なシーンへ進むカリキュラム学習は訓練収束と整合性能を改善するか？
RQ4学習された音声映像表現は、外部視覚監視に依存する方法と比較して定位と分離で競争力あるまたは優れた性能を提供できるか？
RQ5ポアソンベースの複雑さ推定がカリキュラムの順序づけを助け、音声特徴から音源数を予測する精度を向上させるか？

主な発見

提案モデルは、音声と映像特徴マップをソフトクラスタリングし中心を整合させることで、クロスモーダル整合と単一モード表現を改善する。
単一源から多源へというカリキュラム学習は訓練を加速し、収束と整合性能を向上させる。
本手法は強力な映像音響の音源定位を実現し、標準テストでベースラインを上回り、外部監視なしで音分離の映像ガイドを提供する競争力を持つ。
ポアソン回帰ベースの複雑さ推定はカリキュラム順序付けに有益で、音声特徴から音源数を予測する精度を向上させる。
定位に基づく映像表現は、MIT-MUSICでの競争力のある音楽分離結果を、他の先行法よりも少ない訓練サンプルで実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。