QUICK REVIEW

[논문 리뷰] Objects that Sound

Relja Arandjelović, Andrew Zisserman|arXiv (Cornell University)|2017. 12. 18.

Music and Audio Processing참고 문헌 34인용 수 18

한 줄 요약

이 논문은 레이블이 없는 영상에서 청각-시각 일치(_AVC_)를 사용하여 자율학습된 청각-시각 표현 학습 프레임워크를 제안한다. 이는 다중 모odal 검색과 소리 원천 국소화를 동시에 가능하게 한다. 오직 청각-시각 정렬을 지도 신호로 활용함으로써, 음성-이미지 및 이미지-음성 검색을 지원하는 공유 임베딩을 학습하며, 오직 음성 신호만을 사용하여 이미지 내에서 소리를 내는 객체를 정확히 국소화한다.

ABSTRACT

In this paper our objectives are, first, networks that can embed audio and visual inputs into a common space that is suitable for cross-modal retrieval; and second, a network that can localize the object that sounds in an image, given the audio signal. We achieve both these objectives by training from unlabelled video using only audio-visual correspondence (AVC) as the objective function. This is a form of cross-modal self-supervision from video. To this end, we design new network architectures that can be trained for cross-modal retrieval and localizing the sound source in an image, by using the AVC task. We make the following contributions: (i) show that audio and visual embeddings can be learnt that enable both within-mode (e.g. audio-to-audio) and between-mode retrieval; (ii) explore various architectures for the AVC task, including those for the visual stream that ingest a single image, or multiple images, or a single image and multi-frame optical flow; (iii) show that the semantic object that sounds within an image can be localized (using only the sound, no motion or flow information); and (iv) give a cautionary tale on how to avoid undesirable shortcuts in the data preparation.

연구 동기 및 목표

수동 레이블링 없이도 다중 모달 검색을 지원하는 공동 청각-시각 임베딩을 학습하는 것.
운동 또는 광학 흐름에 의존하지 않고 오직 음성 신호만을 사용하여 이미지 내에서 소리를 내는 객체를 국소화하는 것.
레이블이 없는 영상에서 오직 청각-시각 일치를 자율 지도 신호로 사용하여 통합된 네트워크 아키텍처를 훈련하는 것.
단일 이미지, 다중 이미지, 이미지-흐름 조합을 포함한 시각 인코더의 아키텍처 변형을 탐색하는 것.
자율학습에서 임의의 상관관계를 유도할 수 있는 데이터 준비 단서를 식별하고 이를 완화하는 것.

제안 방법

레이블이 없는 영상에서 청각-시각 클립 간의 시간적 정렬을 활용하여 오직 청각-시각 일치(_AVC_)를 유일한 목표로 삼아 딥 네트워크를 훈련한다.
청각 및 시각 입력을 공유 임베딩 공간으로 매핑하기 위해 공유 투영 헤드를 갖춘 이중 스트림 네트워크를 설계한다.
대응 학습을 사용하여 임베딩 공간을 최적화함으로써 일치하는 청각-시각 쌍은 가까이, 불일치하는 쌍은 멀리 떨어지도록 한다.
시각 스트림 변형을 탐색: 단일 이미지, 다중 이미지, 다중 프레임 광학 흐름을 포함한 단일 이미지 등으로 표현 품질에 미치는 영향을 평가한다.
시각 스트림에 국소화 헤드를 적용하여 오직 음성 임베딩을 입력으로 사용해 소리를 내는 객체의 바운딩 박스를 예측한다.
단서를 피하기 위해 데이터 증강 및 신중한 샘플링 전략을 적용하여, 비소리 관련 시각적 신호에 의존하는 것을 방지한다.

실험 결과

연구 질문

RQ1오직 청각-시각 일치를 사용하여 청각 및 시각 표현을 공동으로 학습함으로써 내부 모odal 및 다중 모달 검색을 지원할 수 있는가?
RQ2단일 이미지, 다중 이미지, 이미지 + 흐름 등의 시각 스트림 아키텍처 중 어느 것이 청각-시각 표현 학습에서 가장 높은 성능을 낼 수 있는가?
RQ3운동 또는 흐름 정보 없이 오직 음성 신호만을 사용하여 이미지 내에서 소리를 내는 객체를 국소화할 수 있는가?
RQ4어떤 데이터 준비의 함정이 비정상적인 상관관계를 유도할 수 있으며, 이를 어떻게 피할 수 있는가?
RQ5자율학습을 통한 AVC는 감독 학습 또는 약한 감독 학습 기반의 베이스라인과 비교해 후행 검색 및 국소화 작업에서 어떻게 성능을 내는가?

주요 결과

모델은 음성-이미지 및 이미지-음성 검색 모두에서 뛰어난 성능을 보이며, 공유 임베딩 공간 내에서 효과적인 다중 모달 정렬을 보여준다.
다중 프레임 광학 흐름을 통합한 시각 인코더가 단순한 정적 이미지만을 사용하는 경우보다 성능이 뛰어나, 운동 정보가 표현 품질을 향상시킨다는 것을 시사한다.
모델은 운동 신호에 의존하지 않고 오직 음성 신호만을 사용하여 이미지 내에서 소리를 내는 객체를 성공적으로 국소화하며, 높은 국소화 정확도를 달성한다.
절단 분석을 통해 특정 데이터 준비 선택 사항(예: 잘못된 프레임 샘플링)이 단서를 유도할 수 있으며, 이는 모델이 의미 없는 신호를 활용하고 청각-시각 정렬을 학습하지 않는다는 것을 확인한다.
제안된 방법은 다양한 영상 분포에 대해 잘 일반화되며, 자율학습 전훈 중 도메인 이동에 대해 강건함을 보여준다.
AVC를 목적 함수로 사용하는 대응 학습은 인간의 레이블링 없이도 후행 검색 및 국소화 벤치마크에서 최신 기술 수준의 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.