QUICK REVIEW

[논문 리뷰] Self-Supervised Learning by Cross-Modal Audio-Video Clustering

Humam Alwassel, Dhruv Mahajan|arXiv (Cornell University)|2019. 11. 28.

Music and Audio Processing참고 문헌 77인용 수 251

한 줄 요약

본 논문은 Cross-Modal Deep Clustering (XDC)을 도입하여 비라벨링 비디오에서 한 모달리티(오디오 또는 비디오)의 군집화를 다른 모달리티의 감독 신호로 활용해 자기지도 학습을 수행하고, 최첨단 성능을 달성하며 때로는 대규모 감독사전학습을 능가합니다.

ABSTRACT

Visual and audio modalities are highly correlated, yet they contain different information. Their strong correlation makes it possible to predict the semantics of one from the other with good accuracy. Their intrinsic differences make cross-modal prediction a potentially more rewarding pretext task for self-supervised learning of video and audio representations compared to within-modality learning. Based on this intuition, we propose Cross-Modal Deep Clustering (XDC), a novel self-supervised method that leverages unsupervised clustering in one modality (e.g., audio) as a supervisory signal for the other modality (e.g., video). This cross-modal supervision helps XDC utilize the semantic correlation and the differences between the two modalities. Our experiments show that XDC outperforms single-modality clustering and other multi-modal variants. XDC achieves state-of-the-art accuracy among self-supervised methods on multiple video and audio benchmarks. Most importantly, our video model pretrained on large-scale unlabeled data significantly outperforms the same model pretrained with full-supervision on ImageNet and Kinetics for action recognition on HMDB51 and UCF101. To the best of our knowledge, XDC is the first self-supervised learning method that outperforms large-scale fully-supervised pretraining for action recognition on the same architecture.

연구 동기 및 목표

행동 이해를 위한 수동으로 라벨링된 비디오 데이터에 대한 의존도를 줄이려는 동기.
오디오와 비디오 모달리티 간의 강한 상관성과 보완적 정보를 활용한다.
한 모달리티의 의사레이블을 이용해 다른 모달리티를 학습시키는 교차 모달 클러스터링 프레임워크를 제안한다.
교차 모달 자기지도학습이 다운스트림 동작 인식 및 오디오 분류를 개선함을 보인다.

제안 방법

DeepCluster 스타일의 자기지도 학습을 시각 인코더 E_v와 오디오 인코더 E_a의 다중 모달 설정으로 적응시킨다.
세 가지 모델: Multi-Head Deep Clustering (MDC), Concatenation Deep Clustering (CDC), 그리고 Cross-Modal Deep Clustering (XDC)을 제안한다.
MDC는 각 인코더에 두 번째 헤드를 추가하고 다른 모달리티의 클러스터 할당에 의해 감독된다.
CDC는 시각+오디오 특징을 결합해 클러스터링하고 그 클러스터를 두 인코더의 의사레이블로 사용한다.
XDC는 다른 모달리티의 클러스터를 각 인코더에 독점적으로 감독으로 사용해 교차 모달 자기지도학습을 가능하게 한다.
인코더는 모달리티별 특징을 생성하고 이를 클러스터링(k-means)해 의사레이블을 생성, 표현을 반복적으로 정제한다.

실험 결과

연구 질문

RQ1다중 모달 자기지도 클러스터링 프레임워크(MDC, CDC, XDC)는 단일 모달 기초모형과 어떻게 비교되는가?
RQ2데이터셋 전반에 걸친 XDC 성능에 대해 k-means의 클러스터 수(k)가 미치는 영향은 무엇인가?
RQ3사전학습 데이터 유형(선별된 데이터 vs 비선별 데이터)과 크기가 XDC의 다운스트림 작업으로의 전이성에 어떤 영향을 미치는가?
RQ4표준 동작 인식 및 오디오 분류 벤치마크에서 XDC가 완전한 감독 사전학습을 능가할 수 있는가?

주요 결과

세 가지 다중 모달 모델은 다운스트림 작업에서 단일 모달 DeepCluster 기준선을 능가한다.
XDC는 평가된 데이터셋 전반에서 제안된 모델들 중 일관되게 가장 좋은 성능을 보였다.
XDC가 대규모 비라벨 데이터로 사전학습된 경우 HMDB51/UCF101에서 Kinetics/ImageNet의 완전 감독 사전학습을 넘어설 수 있으며, 이 설정에서의 최초 사례를 기록했다.
AudioSet 또는 IG-Random/IG-Kinetics로 사전학습된 XDC는 강한 전달력을 보이며, 사전학습 데이터 크기가 커질수록 성능이 향상된다.
고정 특성 추출기로 사용할 때 XDC는 여러 완전 감독 모델을 능가하는 경우가 많고, XDC를 이용한 전체 미세조정도 여전히 경쟁력이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.