[논문 리뷰] Cooperative Learning of Audio and Video Models from Self-Supervised Synchronization
커리큘럼 기반의 하드 네거티브로 Audio-Visual Temporal Synchronization을 해결하여 자기지도 학습 두-stream 프레임워크가 오디오와 비디오 표현을 학습하고, 수동 라벨 없이 다운스트림 작업에 강력한 오디오 및 비디오 특징을 제공합니다.
There is a natural correlation between the visual and auditive elements of a video. In this work we leverage this connection to learn general and effective models for both audio and video analysis from self-supervised temporal synchronization. We demonstrate that a calibrated curriculum learning scheme, a careful choice of negative examples, and the use of a contrastive loss are critical ingredients to obtain powerful multi-sensory representations from models optimized to discern temporal synchronization of audio-video pairs. Without further finetuning, the resulting audio features achieve performance superior or comparable to the state-of-the-art on established audio classification benchmarks (DCASE2014 and ESC-50). At the same time, our visual subnet provides a very effective initialization to improve the accuracy of video-based action recognition models: compared to learning from scratch, our self-supervised pretraining yields a remarkable gain of +19.9% in action recognition accuracy on UCF101 and a boost of +17.7% on HMDB51.
연구 동기 및 목표
- 비디오에서 오디오와 시각 신호 사이의 자연스러운 상관관계를 활용하여 수동 라벨링 없이 일반적인 시청각 표현을 학습한다.
- 오디오 및 비디오 구간이 시간적으로 동기화되었는지 판단하는 두-stream 네트워크를 훈련한다.
- 다운스트림 태스크를 위한 표현 품질에 대한 음수 샘플링 전략과 커리큘럼 학습의 영향을 조사한다.
- 학습된 오디오 특징이 오디오 벤치마크에서 최첨단과 일치하거나 이를 초과함을 보여주고, 향상된 동작 인식을 위한 비디오 모델을 초기화한다.
제안 방법
- 오디오 서브네트워크와 비디오 서브네트워크를 갖춘 두-stream 아키텍처를 사용하여 동기화를 평가한다.
- 동기화된 쌍에 대한 거리를 최소화하고 비동기화 쌍에 대해 여유 마진을 부과하는 대조 손실로 학습한다.
- 일시적으로 정렬된 오디오-비디오 클립에서 양성 예를 만들고, 음성은 서로 다른 비디오에서의(쉬움) 또는 같은 비디오에서 시간적 불일치가 있는(하드) 음수로 구성한다.
- 쉬운 음수에 대한 초기 학습 후 하드 음수를 도입하는 커리큘럼 학습을 적용하여 AVTS와 다운스트림 태스크 모두를 개선한다.
- 비디오는 MC x 3D/2D 컨볼루션으로 처리하고 오디오는 VGG 유사 분광 특성 추출기로 처리한 다음 네트워크의 뒤쪽에서 융합하여 AVTS 태스크를 수행한다.
- AVTS를 동작 인식과 오디오 분류를 위한 프리트레이닝 신호로 평가하되, 미세조정 및 제로샷 특징 추출 시나리오를 포함한다.
실험 결과
연구 질문
- RQ1AVTS가 수동 라벨링 없이도 구별 가능한 오디오 및 비디오 표현을 학습할 수 있는가?
- RQ2음수 샘플링 전략(쉬운 음수 대 하드 음수)과 커리큘럼 학습이 AVTS 성능 및 다운스트림 태스크에 어떤 영향을 미치는가?
- RQ3AVTS에서 학습된 특징이 라벨이 있는 사전학습 없이도 동작 인식 및 오디오 분류 태스크로 전달되는가?
- RQ4AVTS로의 프리트레이닝이 더 큰 비레이블드 비디오/오디오 데이터셋에서의 효과는 완전 감독 프리트레이닝과 비교할 때 어떠한가?
주요 결과
- AVTS를 통해 학습된 오디오 특징은 DCASE2014 및 ESC-50에서 미세조정 없이도 경쟁력 있거나 우수한 결과를 달성한다.
- 비디오 서브넷 프리트레이닝은 동작 인식에서 상당한 이득을 주며, 예를 들어 UCF101 및 HMDB51에서 처음부터 학습하는 것에 비해 큰 개선을 보인다.
- 쉬운 음수와 어려운 음수를 혼합한 커리큘럼 학습은 단일 단계 학습보다 AVTS 정확도와 다운스트림 태스크 성능을 향상시킨다.
- Kinetics에서의 AVTS 프리트레이닝은 동작 인식에 상당한 boosts를 제공하며(예: MC3 모델 이득), 더 큰 비레이블드 데이터(AudioSet)로 확장된다.
- AVTS 특징은 오디오 벤치마크에 일반화되며 다중 모달 동작 인식을 지원하여 관련 자기지도 방법보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.