QUICK REVIEW

[論文レビュー] Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of On-Screen Sounds

Efthymios Tzinis, Scott Wisdom|arXiv (Cornell University)|May 3, 2021

Speech and Audio Processing参考文献 42被引用数 9

ひとこと要約

AudioScope は、ラベル付き音声や視覚データを必要とせず、制約のない現実世界の動画からスクリーン上での音声を分離する自己教師あり音声・視覚分離フレームワークである。ノイズの多い音声・視覚の一致信号を用いた混合不変訓練（MixIT）により、音声・視覚の整合性を学習し、スクリーン外の音声を抑制する。YFCC100m から得たオープンドメインデータセットにおいて、最先端の性能を達成した。

ABSTRACT

Recent progress in deep learning has enabled many advances in sound separation and visual scene understanding. However, extracting sound sources which are apparent in natural videos remains an open problem. In this work, we present AudioScope, a novel audio-visual sound separation framework that can be trained without supervision to isolate on-screen sound sources from real in-the-wild videos. Prior audio-visual separation work assumed artificial limitations on the domain of sound classes (e.g., to speech or music), constrained the number of sources, and required strong sound separation or visual segmentation labels. AudioScope overcomes these limitations, operating on an open domain of sounds, with variable numbers of sources, and without labels or prior visual segmentation. The training procedure for AudioScope uses mixture invariant training (MixIT) to separate synthetic mixtures of mixtures (MoMs) into individual sources, where noisy labels for mixtures are provided by an unsupervised audio-visual coincidence model. Using the noisy labels, along with attention between video and audio features, AudioScope learns to identify audio-visual similarity and to suppress off-screen sounds. We demonstrate the effectiveness of our approach using a dataset of video clips extracted from open-domain YFCC100m video data. This dataset contains a wide diversity of sound classes recorded in unconstrained conditions, making the application of previous methods unsuitable. For evaluation and semi-supervised experiments, we collected human labels for presence of on-screen and off-screen sounds on a small subset of clips.

研究の動機と目的

ラベル付き音声や視覚データに依存せずに、現実世界の動画からスクリーン上での音声源を分離する課題に対処すること。
制限された音声クラス、固定された音源数、強い教師信号を仮定する既存手法の限界を克服すること。
制約のない動画環境において、多様なオープンドメインの音声クラスを処理できるフレームワークを開発すること。
音声・視覚の一致から得られる弱いノイズの多い信号のみを用いて、スクリーン上とスクリーン外の音声を効果的に分離できること。
最小限の教師信号で、大規模な現実世界の動画データセットにおいて一般化性と頑健性を示すこと。

提案手法

AudioScope は、混合不変訓練（MixIT）を用いて、合成混合音声（MoMs）を個々の音声源に分離する。
無教師な音声・視覚一致モデルを用いて、音声混合音にスクリーン上である可能性のある音声を示すノイズの多いラベルを生成する。
クロスアテンション機構を用いて音声と映像の特徴を一致させ、音声・視覚の対応関係を学習する。
ノイズの多い一致ラベルとアテンションベースの特徴一致を活用して、スクリーン外の音声を抑制するようにモデルを訓練する。
YFCC100m データセットの実際の動画クリップを合成して混合させたデータセットを用いて訓練を行う。これは、現実的な音声・視覚混合をシミュレートする。
フレームワークはオープンドメイン設定で動作し、変動する音源数と多様な音声クラスをサポートする。

実験結果

リサーチクエスチョン

RQ1自己教師あり音声・視覚フレームワークは、音声や視覚データにラベルが一切ない状況でも、現実世界の動画からスクリーン上での音声を効果的に分離できるか？
RQ2音声・視覚の一致から得られる弱いノイズの多い信号のみを用いて、スクリーン上とスクリーン外の音声をどれほど正確に区別できるか？
RQ3このようなモデルは、制約のない動画環境において、多様でオープンドメインの音声クラスにどの程度一般化できるか？
RQ4AudioScope の性能は、実世界の動画データにおいて、教師ありまたは弱教師ありのベースラインと比べてどうか？
RQ5MoMs を用いた混合不変訓練（MixIT）が、音声・視覚分離の頑健性に与える影響は何か？

主な発見

AudioScope は、YFCC100m から得た多様で現実世界の動画データセットにおいて、自己教師あり音声・視覚分離の分野で最先端の性能を達成した。
モデルは、事前にクラス制約を設けずに、非会話的・非音楽的音声を含む広範な音声クラスにおいて、スクリーン上での音声を効果的に分離できた。
ノイズの多い音声・視覚一致信号の使用により、真のセグメンテーションがなくても、スクリーン外の音声を効果的に抑制できた。
半教師あり実験では、少数の人のラベル付きクリップが性能を顕著に向上させた。これは、弱教師信号からの強力な一般化能力を示している。
フレームワークは、未学習の動画クリップに対しても一般化が良く、変動する音源数に対しても頑健性を維持した。
AudioScope は、MixIT と音声・視覚アテンションを用いた自己教師あり学習が、オープンドメイン設定において音声・視覚の整合性を効果的に学習できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。