QUICK REVIEW

[논문 리뷰] Labelling unlabelled videos from scratch with multi-modal self-supervision

Yuki M. Asano, Mandela Patrick|arXiv (Cornell University)|2020. 06. 24.

Human Pose and Action Recognition참고 문헌 82인용 수 71

한 줄 요약

논문은 SeLaVi를 소개합니다. 멀티모달 자기지도 학습 클러스터링 방법으로, 오디오-비주얼 상관관계를 활용하여 레이블이 없는 비디오의 표현과 의사 라벨을 함께 학습하고, 여러 비디오 데이터셋에서 비지도 레이블링의 최첨단 성능을 달성합니다.

ABSTRACT

A large part of the current success of deep learning lies in the effectiveness of data -- more precisely: labelled data. Yet, labelling a dataset with human annotation continues to carry high costs, especially for videos. While in the image domain, recent methods have allowed to generate meaningful (pseudo-) labels for unlabelled datasets without supervision, this development is missing for the video domain where learning feature representations is the current focus. In this work, we a) show that unsupervised labelling of a video dataset does not come for free from strong feature encoders and b) propose a novel clustering method that allows pseudo-labelling of a video dataset without any human annotations, by leveraging the natural correspondence between the audio and visual modalities. An extensive analysis shows that the resulting clusters have high semantic overlap to ground truth human labels. We further introduce the first benchmarking results on unsupervised labelling of common video datasets Kinetics, Kinetics-Sound, VGG-Sound and AVE.

연구 동기 및 목표

비디오 데이터의 라벨링 비용을 줄이기 위해 비지도 라벨링을 가능하게 하는 것을 목표로 한다.
다중 모달(오디오-비주얼) 비디오 데이터에서 인간 주석 없이 학습하는 클러스터링 프레임워크를 개발한다.
클러스터가 의미론적 내용을 반영하도록 하고 Zipf 유사 분포와 같은 불균형한 클래스 분포를 처리한다.
오디오와 시각 스트림을 증강으로 간주하고 정합을 맞춤으로써 모달리티-강인 클러스터링을 가능하게 한다.
표준 비디오 데이터셋에서 강한 벤치마크를 제시하여 비지도 라벨링 성능을 확립한다.

제안 방법

클러스터링을 degenerate 솔루션을 방지하는 최적 수송 문제로 형식화한다(SeLa의 기초).
균일한 클러스터 priors를 완화하여 실제 세계의 스키우 분포를 수용하고, Sinkhorn 최적화를 통해 임의의 priors를 허용한다.
모달리티를 증강으로 간주하고 모달리티-무관한 클러스터를 학습하여 다중 모달 단일 라벨링을 도입한다.
초기화 시 모달리티별 인코더를 동기화하여 모달리티 간 출력을 정렬한다.
서로 다른, 서로 직교하는 라벨링을 병렬로 탐색하기 위해 다중 상호상관이 낮은 클러스터링 헤드를 학습한다.
오디오와 비주얼의 한 쌍 인코더를 사용해 공유 클러스터 할당을 생성하고 모달리티 스플라이싱 증강을 적용한다.

실험 결과

연구 질문

RQ1다중 모달 자기지도 학습 클러스터링이 인간 주석 없이 의미론적으로 의미 있는 비디오 라벨을 생성할 수 있는가?
RQ2오디오-비주얼 상관관계와 모달리티 정합을 도입하는 것이 단일 모달 또는 사후 라벨링에 비해 클러스터링 품질에 어떤 영향을 미치는가?
RQ3다중 상호상관이 낮은 클러스터링 헤드가 비디오의 유효한 라벨링 공간의 커버리지를 개선하는가?
RQ4열화된 모달리티(예: 압축된 시각 정보)에서도 학습된 클러스터링은 얼마나 견고한가?

주요 결과

SeLaVi는 VGG-Sound, AVE 및 Kinetics-Sound에서 최첨단 클러스터링 지표를 달성하며, 베이스라인 대비 NMI, ARI 및 정확도에서 상당한 향상을 보인다.
오디오와 시각 모달리티를 모두 활용하면 단일 모달보다 더 높은 클러스터링 품질을 얻고, 모달리티가 정렬될 때 강한 이점을 보인다.
상호 상관이 낮은 클러스터링 헤드와 모달리티 정합은 단일 헤드 또는 간단한 연결 방식보다 클러스터링 성능을 크게 향상시킨다.
레이블이 없는 데이터로 32%의 VGG-Sound와 55%의 AVE 비디오를 완벽하게 그룹화할 수 있으며, AVE에서 57.9%의 정확도를 달성한다.
SeLaVi가 학습한 비지도 라벨은 향상된 다운스트림 표현 학습을 지원하며, 비디오 액션 검색 성능의 향상을 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.