[논문 리뷰] Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of On-Screen Sounds
AudioScope는 레이블이 부여된 오디오 또는 시각 데이터가 없이도 제약 없는 실생활 영상에서 화면 내 소리를 분리하는 자기지도 학습 기반 오디오-시각 소리 분리 프레임워크이다. 노이즈가 섞인 오디오-시각 동시성 신호를 활용한 혼합 불변 훈련(MixIT)을 통해 오디오-시각 정렬을 학습하고 화면 외부 소리를 억제함으로써, YFCC100m에서 확보한 개방 도메인 데이터셋에서 최신 기술 수준의 성능을 달성한다.
Recent progress in deep learning has enabled many advances in sound separation and visual scene understanding. However, extracting sound sources which are apparent in natural videos remains an open problem. In this work, we present AudioScope, a novel audio-visual sound separation framework that can be trained without supervision to isolate on-screen sound sources from real in-the-wild videos. Prior audio-visual separation work assumed artificial limitations on the domain of sound classes (e.g., to speech or music), constrained the number of sources, and required strong sound separation or visual segmentation labels. AudioScope overcomes these limitations, operating on an open domain of sounds, with variable numbers of sources, and without labels or prior visual segmentation. The training procedure for AudioScope uses mixture invariant training (MixIT) to separate synthetic mixtures of mixtures (MoMs) into individual sources, where noisy labels for mixtures are provided by an unsupervised audio-visual coincidence model. Using the noisy labels, along with attention between video and audio features, AudioScope learns to identify audio-visual similarity and to suppress off-screen sounds. We demonstrate the effectiveness of our approach using a dataset of video clips extracted from open-domain YFCC100m video data. This dataset contains a wide diversity of sound classes recorded in unconstrained conditions, making the application of previous methods unsuitable. For evaluation and semi-supervised experiments, we collected human labels for presence of on-screen and off-screen sounds on a small subset of clips.
연구 동기 및 목표
- 레이블이 부여된 오디오 또는 시각 데이터에 의존하지 않고 실생활 영상에서 화면 내 소리 원천을 분리하는 문제를 해결하기 위해.
- 이전 방법들이 제한된 소리 유형, 고정된 소리 원천 수, 강한 supervision을 요구하는 등의 한계를 극복하기 위해.
- 제약 없는 영상 환경에서 다양한 개방 도메인 소리 유형을 처리할 수 있는 프레임워크를 개발하기 위해.
- 오디오-시각 동시성에서 유래한 약한 노이즈가 섞인 신호만을 사용하여 화면 내 소리와 화면 외부 소리를 효과적으로 분리할 수 있도록 하기 위해.
- 최소한의 supervision으로도 대규모 실생활 영상 데이터셋에서 일반화 능력과 강건성을 입증하기 위해.
제안 방법
- AudioScope는 합성 혼합 오디오의 혼합(MoMs)을 개별 소리 원천으로 분리하기 위해 혼합 불변 훈련(MixIT)을 사용한다.
- 오디오-비디오 동시성에 기반한 비지도 학습 모델을 활용하여 오디오 혼합에 대해 노이즈가 섞인 레이블을 생성함으로써, 어떤 소리가 화면 내일 가능성이 있는지 표시한다.
- 교차 어텐션 기반 메커니즘을 통해 오디오 및 비디오 특징을 정렬하여 오디오-시각 대응 관계를 학습한다.
- 노이즈가 섞인 동시성 레이블과 어텐션 기반 특징 정렬을 활용하여 화면 외부 소리를 억제하도록 모델을 훈련한다.
- YFCC100m 데이터셋의 실생활 영상 클립을 기반으로 한 합성 혼합 오디오에 대해 훈련을 수행하여 현실적인 오디오-시각 혼합을 시뮬레이션한다.
- 이 프레임워크는 개방 도메인 환경에서 작동하며, 다양한 소리 원천 수와 다양한 소리 유형을 지원한다.
실험 결과
연구 질문
- RQ1자기지도 학습 기반 오디오-시각 프레임워크가 오디오 또는 시각 데이터에 레이블이 전혀 없이도 실생활 영상에서 화면 내 소리를 효과적으로 분리할 수 있는가?
- RQ2오디오-시각 동시성에서 유래한 약한 노이즈가 섞인 신호만을 사용할 때 모델이 화면 내 소리와 화면 외부 소리를 얼마나 잘 구분할 수 있는가?
- RQ3이러한 모델이 제약 없는 영상 환경에서 다양한 개방 도메인 소리 유형에 얼마나 잘 일반화되는가?
- RQ4AudioScope의 성능가 비지도 또는 약한 supervision 기반의 기존 기준 모델에 비해 실생활 영상 데이터에서 어떻게 비교되는가?
- RQ5MoMs를 활용한 혼합 불변 훈련이 오디오-시각 소리 분리의 강건성에 어떤 영향을 미치는가?
주요 결과
- AudioScope는 YFCC100m에서 확보한 다양한 실생활 영상 데이터셋에서 비지도 학습 기반 오디오-시각 소리 분리 분야에서 최신 기술 수준의 성능을 달성한다.
- 모델은 사전에 클래스 제약 없이도 비말소리 및 비음악 소리 포함 다양한 소리 유형에서 화면 내 소리를 성공적으로 분리한다.
- 노이즈가 섞인 오디오-시각 동시성 신호의 사용으로, 지도 레이블이 없더라도 화면 외부 소리를 효과적으로 억제할 수 있었다.
- 반지도 학습 실험 결과, 소수의 인간 레이블이 부여된 클립만으로도 성능 향상이 뚜렷하게 나타나, 약한 supervision으로부터 강력한 일반화 능력이 있음을 시사한다.
- 이 프레임워크는 새로운 영상 클립에 대해 잘 일반화되며, 다양한 수의 소리 원천에 대해 강건성을 유지한다.
- AudioScope는 MixIT와 오디오-시각 어텐션을 활용한 자기지도 학습이 개방 도메인 환경에서 효과적으로 오디오-시각 정렬을 학습할 수 있음을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.