QUICK REVIEW

[논문 리뷰] Curriculum Audiovisual Learning

Di Hu, Zheng Wang|arXiv (Cornell University)|2020. 01. 26.

Subtitles and Audiovisual Media참고 문헌 29인용 수 33

한 줄 요약

이 논문은 소프트 클러스터링 콘텐츠 탐지기와 단순에서 복잡한 장면(소리 원천의 수가 달라짐)을 다루는 커리큘럼 학습 전략을 갖춘 유연한 시청각 모델을 제시한다. 이 접근법은 단일 모달 표현의 개선, 교차 모달 정렬, 외부 시각 감독 없이도 시청각 로컬라이제이션 및 소리 분리에서 강한 성능을 보인다.

ABSTRACT

Associating sound and its producer in complex audiovisual scene is a challenging task, especially when we are lack of annotated training data. In this paper, we present a flexible audiovisual model that introduces a soft-clustering module as the audio and visual content detector, and regards the pervasive property of audiovisual concurrency as the latent supervision for inferring the correlation among detected contents. To ease the difficulty of audiovisual learning, we propose a novel curriculum learning strategy that trains the model from simple to complex scene. We show that such ordered learning procedure rewards the model the merits of easy training and fast convergence. Meanwhile, our audiovisual model can also provide effective unimodal representation and cross-modal alignment performance. We further deploy the well-trained model into practical audiovisual sound localization and separation task. We show that our localization model significantly outperforms existing methods, based on which we show comparable performance in sound separation without referring external visual supervision. Our video demo can be found at https://youtu.be/kuClfGG0cFU.

연구 동기 및 목표

이질적 장면 복잡도(다양한 소리 원천 수)에서 시청각 콘텐츠 정렬 학습을 다룬다.
오디오/비주얼 구성요소를 식별하고 잠재적 교차 모달 정렬을 추론하기 위한 소프트 클러스터링 콘텐츠 탐지기를 개발한다.
간단한 장면에서 복잡한 장면으로 학습하는 커리큘럼 시뮬레이션을 도입하고 수렴을 개선한다.
로컬라이제이션 및 분리 태스크를 통해 단일 모달 표현 품질과 교차 모달 인식을 입증한다.

제안 방법

오디오를 스펙트로그램으로, 비주얼을 이미지 피처 맵으로 표현하고 채널 공간에서 소프트 K-평균 클러스터링을 적용해 잠재적인 소스와 객체를 발견한다.
구조화된 유사도 목표와 대조 손실을 통해 오디오와 비주얼 클러스터 중심을 매칭하여 교차 모달 정렬을 계산한다.
데이터를 소스 수에 따라 정렬하고 그에 따라 클러스터 수를 조정(k_a, k_v)하여 커리큘럼 방식으로 학습한다.
오디오 피처에서 기대 소스 수를 예측하는 포아송 회귀 네트워크로 장면 복잡도를 추정한다.
오디오 중심과 비주얼 중심을 매칭하고 할당을 로컬라이제이션용 공간 마스크로 투사해 소스 위치를 로컬라이즈한다.
비주얼 가이드 소리 생성자 표현을 분리 네트워크에 입력해 타깃 소리를 혼합물에서 분리하는 시청각 소리 분리를 수행한다.

실험 결과

연구 질문

RQ1다양한 소리 원천 수를 가진 장면에서 강력한 주석 없이도 시청각 콘텐츠 정렬을 어떻게 학습할 수 있는가?
RQ2소프트 클러스터링 기반 탐지기와 잠재 정렬 목표가 외부 시각 감독 없이도 효과적인 교차 모달 인식 및 하위 작업(로컬라이제이션 및 분리)을 가능하게 할 수 있는가?
RQ3간단한 장면에서 복잡한 장면으로 진행되는 커리큘럼 학습이 학습 수렴 및 정렬 성능을 개선하는가?
RQ4학습된 시청각 표현이 외부 시각 감독에 의존하는 방법과 비교해 로컬라이제이션 및 분리에서 경쟁력 있는 또는 우수한 성능을 제공하는가?
RQ5포아송 기반 복잡도 추정기가 시나리오의 교재 일정에 얼마나 잘 작동하여 학습 커리큘럼을 안내하는가?

주요 결과

제안된 모델은 오디오 및 비주얼 피처 맵을 소프트 클러스터링하고 중심을 정렬함으로써 교차 모달 정렬과 단일 모달 표현을 향상시킨다.
단일 소스에서 다중 소스로의 커리큘럼 학습은 학습 속도를 높이고 수렴 및 정렬 성능을 개선한다.
이 알고리즘은 표준 테스트에서 강력한 시청각 소리 로컬라이제이션을 보이며 외부 감독 없이도 소리 분리에 대해 경쟁력 있는 시각적 지도를 제공한다.
포아송 회귀 기반의 복잡도 추정은 커리큘럼 순서에 이익을 주고 오디오 피처에서 소스 소리를 예측하는 정확도를 향상시킨다.
로컬라이제이션에서 파생된 시각 표현은 이전 방법들보다 적은 학습 샘플로 MIT-MUSIC에서 경쟁력 있는 음악 분리 성능을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.