QUICK REVIEW

[논문 리뷰] Learning to Separate Object Sounds by Watching Unlabeled Video

Ruohan Gao, Rogério Feris|arXiv (Cornell University)|2018. 04. 05.

Speech and Audio Processing인용 수 28

한 줄 요약

이 논문은 대규모 레이블이 없는 영상에서 시각적 맥락을 활용한 깊이 있는 다중 인스턴스 다중 레이블 학습 프레임워크를 통해 객체별 음성 표현을 비지도 학습 방식으로 학습하는 방법을 제안한다. 영상에서 객체 검출과 비음수 행렬 분해를 이용해 혼합된 음성을 객체 수준의 소리로 분리하며, 실제 영상에서 시각적으로 보조된 음성 분리 및 노이즈 제거 작업에서 최고 성능을 기록한다.

ABSTRACT

Perceiving a scene most fully requires all the senses. Yet modeling how objects look and sound is challenging: most natural scenes and events contain multiple objects, and the audio track mixes all the sound sources together. We propose to learn audio-visual object models from unlabeled video, then exploit the visual context to perform audio source separation in novel videos. Our approach relies on a deep multi-instance multi-label learning framework to disentangle the audio frequency bases that map to individual visual objects, even without observing/hearing those objects in isolation. We show how the recovered disentangled bases can be used to guide audio source separation to obtain better-separated, object-level sounds. Our work is the first to learn audio source separation from large-scale "in the wild" videos containing multiple audio sources per video. We obtain state-of-the-art results on visually-aided audio source separation and audio denoising. Our video results: http://vision.cs.utexas.edu/projects/separating_object_sounds/

연구 동기 및 목표

레이블이 없는 대규모 영상에서 혼합된 음성 소스에서 객체 수준의 음성 표현을 학습한다.
다양한 겹치는 음성 소스가 존재하고 고립된 학습 예제가 없는 실제 영상에서의 음성 소스 분리 과제를 해결한다.
이미지 인식에서 유도된 시각적 맥락을 활용해 음성 기저의 분리에 약한 감독을 제공한다.
다중 마이크 설정이나 사전 레이블링된 음성 데이터 없이도 새로운 제약이 없는 영상에서 시각적으로 보조된 음성 분리를 가능하게 한다.

제안 방법

각 영상 프레임에서 시각적 객체를 검출하기 위해 최신의 CNN을 사용하여 청각-시각적 정렬에 약한 감독을 제공한다.
각 영상의 음성에 대해 비음수 행렬 분해(NMF)를 적용하여 기저 음성 성분을 나타내는 주파수 기저 벡터를 추출한다.
청각 기저와 검출된 시각적 객체 간의 연관성을 예측하기 위해 깊이 있는 다중 인스턴스 다중 레이블(MIML) 신경망을 훈련한다.
영상 간의 시각적 객체 분포에 따라 각 객체별로 특징적인 스펙트럼 패턴을 학습한다.
학습된 객체별 음성 기저를 새로운 영상에서 NMF 기반의 음성 분리에 유도하는 사전 조건으로 활용한다.
분리된 음성 기저를 소스 분리 프레임워크에 통합하여 혼합된 음성에서 개별 객체의 소리를 재구성한다.

실험 결과

연구 질문

RQ1레이블이 없는 영상에서 이미지 인식의 시각적 맥락을 활용해 음성 감독 없이 혼합된 음성을 객체별 구성요소로 분리할 수 있는가?
RQ2오직 시각적 신호와 자기지도 학습만을 사용할 때 모델이 '실제 환경' 영상에서 새로운 객체의 소리를 얼마나 잘 분리할 수 있는가?
RQ3다중 인스턴스 다중 레이블 학습 프레임워크가 다양한 실제 영상 데이터에서 의미 있는 청각-시각적 연관성을 얼마나 잘 학습할 수 있는가?
RQ4학습된 청각-시각적 사전 지식이 지도 학습 기반 방법을 초월해 음성 분리 및 노이즈 제거 성능을 향상시킬 수 있는가?
RQ5시각적 오류 분류나 화면 외부 소리 원천에 대해 이 방법은 얼마나 강인한가?

주요 결과

이 방법은 시각적으로 보조된 음성 분리 작업에서 최고 성능을 기록하며 기존 방법들을 능가한다.
노이즈 제거 작업에서 평균 NSDR은 10.5 dB를 기록하여 기존 방법들인 Sparse CCA(5.12 dB)와 JIVE(3.87 dB)를 뛰어넘었다.
모델은 화면에 보이지 않는 배경의 피아노 연주와 같은 외부 객체의 소리까지 성공적으로 식별하고 분리할 수 있었다.
정성적 결과에서 MIML 네트워크는 시각적 검출이 정확하지 않더라도 청각 기저와 올바른 객체 카테고리 간의 연관성을 학습하는 것으로 나타났다.
이 방법은 음악 악기, 동물, 차량 등 다양한 객체 카테고리와 실제 영상 콘텐츠에 대해 일반화 가능하며, 효과적인 청각-시각 사전 지식 학습이 가능함을 보여주었다.
이 방법은 시각적 오류 분류 및 비시각적 소리 원천에 대해서도 강인함을 보이며, 대규모 데이터에서 효과적인 청각-시각 사전 지식 학습이 가능함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.