QUICK REVIEW

[논문 리뷰] Multi-modal Self-Supervision from Generalized Data Transformations

Mandela Patrick, Yuki M. Asano|arXiv (Cornell University)|2021. 05. 04.

Music and Audio Processing참고 문헌 86인용 수 119

한 줄 요약

이 논문은 일반화된 데이터 변환(GDTs)을 소개하며, 비디오의 다중 모odal성과 시간적 동역학에서의 불변성과 고유성에 체계적으로 접근하는 통합 프레임워크를 제안한다. 내용을 유지하는 변환을 명시적 제어로 모델링함으로써 불변성 또는 고유성을 제어함으로써 GDTs는 최신 기준 성능을 달성한다—HMDB-51에서 72.8%의 정확도와 UCF-101에서 95.2%의 정확도를 기록하여, 심지어 지도 학습 사전학습보다도 뛰어난 성능을 보였다.

ABSTRACT

In the image domain, excellent representation can be learned by inducing invariance to content-preserving transformations, such as image distortions. In this paper, we show that, for videos, the answer is more complex, and that better results can be obtained by accounting for the interplay between invariance, distinctiveness, multiple modalities and time. We introduce Generalized Data Transformations (GDTs) as a way to capture this interplay. GDTs reduce most previous self-supervised approaches to a choice of data transformations, even when this was not the case in the original formulations. They also allow to choose whether the representation should be invariant or distinctive w.r.t. each effect and tell which combinations are valid, thus allowing us to explore the space of combinations systematically. We show in this manner that being invariant to certain transformations and distinctive to others is critical to learning effective video representations, improving the state-of-the-art by a large margin, and even surpassing supervised pretraining. We demonstrate results on a variety of downstream video and audio classification and retrieval tasks, on datasets such as HMDB-51, UCF-101, DCASE2014, ESC-50 and VGG-Sound. In particular, we achieve new state-of-the-art accuracies of 72.8% on HMDB-51 and 95.2% on UCF-101.

연구 동기 및 목표

간단한 이미지 수준의 왜곡에 대한 불변성 이상의 효과적인 비디오 표현 학습의 복잡성을 다루기 위해.
자율학습에서 불변성, 고유성, 다중 모달성(예: 비디오 및 오디오) 및 시간적 동역학 간의 상호작용을 체계화하기 위해.
다양한 자율학습 접근법을 하나의 일반화된 데이터 변환 프레임워크로 통합하기 위해.
변환 조합의 체계적 탐색을 가능하게 하여 최적의 표현을 유도하는 조합을 식별하기 위해.
하류 비디오 및 오디오 분류 및 검색 작업에서 최신 기준 성능을 달성하기 위해.

제안 방법

공간적, 시간적, 모달 특화 변환을 포함한 다양한 데이터 증강 기법을 포함하는 통합 형식으로 일반화된 데이터 변환(GDTs)을 제안한다.
각 변환을 명시적으로 제어하여 학습된 표현이 해당 변환에 대해 불변이거나 고유성이 되어야 하는지 정의한다.
각 변환이 모달성(예: 비디오, 오디오)과 시간 범위(예: 프레임 수준, 클립 수준)를 가질 수 있도록 변환 공간을 연산 집합으로 모델링한다.
대비 학습 목표를 사용하여 특정 변환(예: 색상 왜곡)에 대해 불변성을, 다른 변환(예: 프레임 재배열)에 대해 고유성을 유도함으로써 강건하고 구분력 있는 특징을 촉진한다.
최적의 성능을 내는 조합을 최대화하기 위해 변환 조합의 공간을 체계적으로 탐색한다.
HMDB-51, UCF-101, ESC-50, DCASE2014, VGG-Sound 등의 데이터셋에서 선형 프로브 또는 미세조정을 사용하여 학습된 표현을 하류 작업에 적용한다.

실험 결과

연구 질문

RQ1다중 모달성과 시간에 걸쳐 불변성과 고유성이 상호작용할 경우 비디오 표현 학습에 어떤 영향을 미치는가?
RQ2GDTs와 같은 통합 프레임워크가 다양한 자율학습 접근법을 일반화하고 통합할 수 있는가?
RQ3다양한 변환 조합 중에서 하류 성능 측면에서 가장 효과적인 비디오 표현을 유도하는 조합은 무엇인가?
RQ4GDTs를 활용한 자율학습이 비디오 벤치마크에서 지도 학습 사전학습을 초월할 수 있는가?
RQ5모달 특화 변환(예: 오디오 왜곡)은 다중 모달 표현 학습에 어떤 기여를 하는가?

주요 결과

일반화된 데이터 변환(GDTs)은 기존의 대부분의 자율학습 비디오 학습 접근법을 하나의 체계적인 프레임워크로 통합하고 일반화한다.
특정 변환(예: 색상 이동)에 대해 불변이고, 다른 변환(예: 프레임 순서 변경)에 대해 고유성이 되는 표현을 학습하는 것은 성능 향상에 크게 기여한다.
이 방법은 HMDB-51 행동 인식 벤치마크에서 새로운 최신 기준 정확도 72.8%를 달성한다.
이 방법은 UCF-101에서 95.2%의 정확도를 기록하여 이전 최신 기준 성능을 초월했고, 심지어 지도 학습 사전학습을 뛰어넘는 성능을 보였다.
이 프레임워크는 불변성과 고유성을 균형 잡는 최적의 구성 조합을 식별할 수 있도록 변환 조합의 체계적 탐색을 가능하게 한다.
학습된 표현은 HMDB-51, UCF-101, DCASE2014, ESC-50, VGG-Sound 등의 다양한 하류 작업—비디오 및 오디오 분류 및 검색—으로 효과적으로 일반화된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.