QUICK REVIEW

[논문 리뷰] Cooperative Learning of Audio and Video Models from Self-Supervised Synchronization

Bruno Korbar, Du Tran|arXiv (Cornell University)|2018. 06. 30.

Music and Audio Processing인용 수 187

한 줄 요약

커리큘럼 기반의 하드 네거티브로 Audio-Visual Temporal Synchronization을 해결하여 자기지도 학습 두-stream 프레임워크가 오디오와 비디오 표현을 학습하고, 수동 라벨 없이 다운스트림 작업에 강력한 오디오 및 비디오 특징을 제공합니다.

ABSTRACT

There is a natural correlation between the visual and auditive elements of a video. In this work we leverage this connection to learn general and effective models for both audio and video analysis from self-supervised temporal synchronization. We demonstrate that a calibrated curriculum learning scheme, a careful choice of negative examples, and the use of a contrastive loss are critical ingredients to obtain powerful multi-sensory representations from models optimized to discern temporal synchronization of audio-video pairs. Without further finetuning, the resulting audio features achieve performance superior or comparable to the state-of-the-art on established audio classification benchmarks (DCASE2014 and ESC-50). At the same time, our visual subnet provides a very effective initialization to improve the accuracy of video-based action recognition models: compared to learning from scratch, our self-supervised pretraining yields a remarkable gain of +19.9% in action recognition accuracy on UCF101 and a boost of +17.7% on HMDB51.

연구 동기 및 목표

비디오에서 오디오와 시각 신호 사이의 자연스러운 상관관계를 활용하여 수동 라벨링 없이 일반적인 시청각 표현을 학습한다.
오디오 및 비디오 구간이 시간적으로 동기화되었는지 판단하는 두-stream 네트워크를 훈련한다.
다운스트림 태스크를 위한 표현 품질에 대한 음수 샘플링 전략과 커리큘럼 학습의 영향을 조사한다.
학습된 오디오 특징이 오디오 벤치마크에서 최첨단과 일치하거나 이를 초과함을 보여주고, 향상된 동작 인식을 위한 비디오 모델을 초기화한다.

제안 방법

오디오 서브네트워크와 비디오 서브네트워크를 갖춘 두-stream 아키텍처를 사용하여 동기화를 평가한다.
동기화된 쌍에 대한 거리를 최소화하고 비동기화 쌍에 대해 여유 마진을 부과하는 대조 손실로 학습한다.
일시적으로 정렬된 오디오-비디오 클립에서 양성 예를 만들고, 음성은 서로 다른 비디오에서의(쉬움) 또는 같은 비디오에서 시간적 불일치가 있는(하드) 음수로 구성한다.
쉬운 음수에 대한 초기 학습 후 하드 음수를 도입하는 커리큘럼 학습을 적용하여 AVTS와 다운스트림 태스크 모두를 개선한다.
비디오는 MC x 3D/2D 컨볼루션으로 처리하고 오디오는 VGG 유사 분광 특성 추출기로 처리한 다음 네트워크의 뒤쪽에서 융합하여 AVTS 태스크를 수행한다.
AVTS를 동작 인식과 오디오 분류를 위한 프리트레이닝 신호로 평가하되, 미세조정 및 제로샷 특징 추출 시나리오를 포함한다.

실험 결과

연구 질문

RQ1AVTS가 수동 라벨링 없이도 구별 가능한 오디오 및 비디오 표현을 학습할 수 있는가?
RQ2음수 샘플링 전략(쉬운 음수 대 하드 음수)과 커리큘럼 학습이 AVTS 성능 및 다운스트림 태스크에 어떤 영향을 미치는가?
RQ3AVTS에서 학습된 특징이 라벨이 있는 사전학습 없이도 동작 인식 및 오디오 분류 태스크로 전달되는가?
RQ4AVTS로의 프리트레이닝이 더 큰 비레이블드 비디오/오디오 데이터셋에서의 효과는 완전 감독 프리트레이닝과 비교할 때 어떠한가?

주요 결과

AVTS를 통해 학습된 오디오 특징은 DCASE2014 및 ESC-50에서 미세조정 없이도 경쟁력 있거나 우수한 결과를 달성한다.
비디오 서브넷 프리트레이닝은 동작 인식에서 상당한 이득을 주며, 예를 들어 UCF101 및 HMDB51에서 처음부터 학습하는 것에 비해 큰 개선을 보인다.
쉬운 음수와 어려운 음수를 혼합한 커리큘럼 학습은 단일 단계 학습보다 AVTS 정확도와 다운스트림 태스크 성능을 향상시킨다.
Kinetics에서의 AVTS 프리트레이닝은 동작 인식에 상당한 boosts를 제공하며(예: MC3 모델 이득), 더 큰 비레이블드 데이터(AudioSet)로 확장된다.
AVTS 특징은 오디오 벤치마크에 일반화되며 다중 모달 동작 인식을 지원하여 관련 자기지도 방법보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.