QUICK REVIEW

[논문 리뷰] Space-Time Crop & Attend: Improving Cross-Modal Video Representation Learning

Mandela Patrick, Yuki M. Asano|arXiv (Cornell University)|2021. 03. 18.

Multimodal Machine Learning Applications참고 문헌 132인용 수 3

한 줄 요약

이 논문은 공간적 크롭과 주의 메커니즘을 결합한 새로운 방법인 Space-Time Crop & Attend (STiCA)를 제안한다. 이는 특징 공간에서의 공간적 크롭을 적용하여 효율적인 데이터 증강을 가능하게 하고, 경량 트랜스포머를 사용해 시간적 모델링을 수행함으로써 자기지도 학습 기반 비디오 표현 학습 성능을 향상시킨다. STiCA는 Kinetics-400에서 사전학습한 후 HMDB-51에서 67.0%의 정확도와 UCF-101에서 93.1%의 정확도를 기록하여 최신 기준 성능(SoTA)을 달성한다.

ABSTRACT

The quality of the image representations obtained from self-supervised learning depends strongly on the type of data augmentations used in the learning formulation. Recent papers have ported these methods from still images to videos and found that leveraging both audio and video signals yields strong gains; however, they did not find that spatial augmentations such as cropping, which are very important for still images, work as well for videos. In this paper, we improve these formulations in two ways unique to the spatio-temporal aspect of videos. First, for space, we show that spatial augmentations such as cropping do work well for videos too, but that previous implementations, due to the high processing and memory cost, could not do this at a scale sufficient for it to work well. To address this issue, we first introduce Feature Crop, a method to simulate such augmentations much more efficiently directly in feature space. Second, we show that as opposed to naive average pooling, the use of transformer-based attention improves performance significantly, and is well suited for processing feature crops. Combining both of our discoveries into a new method, Space-Time Crop & Attend (STiCA) we achieve state-of-the-art performance across multiple video-representation learning benchmarks. In particular, we achieve new state-of-the-art accuracies of 67.0% on HMDB-51 and 93.1% on UCF-101 when pre-training on Kinetics-400.

연구 동기 및 목표

자기지도 학습 기반 비디오 표현 학습에서 효과적인 공간적 불변성 학습의 부족을 해결하고자 한다. 이는 이미지 대비 학습에서 중요하게 작용하지만, 계산 비용이 높아 비디오에서는 여전히 활용도가 낮다.
비디오 모델에서 단순한 전역 평균 풀링의 한계를 해결하고자 한다. 이는 시간 순서 정보를 손실하게 하여 장거리 시간적 의존성 모델링을 어렵게 한다.
특징 공간에서의 공간 증강과 주의 기반 시간 모델링을 조합함으로써 교차 모odal 비디오 표현 학습을 향상시키고, 불변성과 시퀀스 이해 능력을 모두 향상시키고자 한다.
더 큰 데이터셋(예: AudioSet)을 사용하지 않고도 Kinetics-400 사전학습만으로도 최신 기준 성능을 달성하고자 한다. 이는 감독 학습 방법에 가까운 성능를 달성하는 것을 목표로 한다.

제안 방법

입력 공간에서의 크롭을 시뮬레이션하기 위해 특징 공간에서의 크롭을 구현하는 'Feature Crop' 기법을 도입한다. 이는 크롭 수에 관계없이 백본 네트워크의 순방향 전파를 단지 두 번만 수행하므로 계산 비용을 크게 줄인다.
다중 특징 크롭을 사용한 대비 학습을 적용하여 공간적 불변성을 강화함으로써, GPU 메모리나 학습 시간 증가 없이도 강력한 데이터 증강을 구현한다.
전역 평균 풀링을 대체하기 위해 얕은 트랜스포머 기반 풀링 레이어를 사용함으로써, 시간 순서를 유지하는 컨텍스트 기반 표현을 학습할 수 있도록 한다.
특징 공간에서의 크롭을 활용한 교차 모달 대비 학습(AV)과 내부 모달 대비 학습을 결합하여, 다중 감독 신호를 통해 표현 품질을 향상시킨다.
비디오 및 오디오 스트림에 공통된 트렁크를 사용하는 이중 스트림 아키텍처를 도입하고, 시간적 주의 풀링과 대비 손실을 적용하여 교차 모달 표현을 정렬한다.
노이즈 대비 인스턴스 식별 목적함수를 사용해 모델을 학습한다. 여기서 양의 쌍은 동일한 비디오의 증강된 뷰이고, 음의 쌍은 다른 비디오에서 온 뷰이다.

실험 결과

연구 질문

RQ1입력 공간에서의 높은 계산 비용에도 불구하고, 크롭과 같은 공간적 데이터 증강이 비디오 표현 학습에 효과적으로 적용될 수 있는가?
RQ2전역 평균 풀링을 트랜스포머 기반 주의 메커니즘으로 대체할 경우, 자기지도 학습 기반 비디오 학습에서 시간 모델링 성능이 향상되는가?
RQ3특징 공간에서의 크롭과 주의 기반 시간 풀링을 조합할 경우, 기존의 표준 대비 학습보다 더 높은 성능을 달성할 수 있는가?
RQ4표준 데이터셋인 Kinetics-400에서 사전학습한 후, 제안된 방법이 더 큰 데이터셋을 사용하지 않은 최신 기준 기법들과 비교해 어떻게 성능를 내는가?
RQ5자기지도 학습 기반 비디오 모델이 Kinetics-400 사전학습만으로 감독 학습 방법에 가까운 성능를 달성할 수 있는 정도는 어느 정도인가?

주요 결과

STiCA는 Kinetics-400에서 사전학습한 후 HMDB-51에서 67.0%의 정확도와 UCF-101에서 93.1%의 정확도를 기록하여, 이전의 SoTA 기법인 GDT 및 CVLR를 초월하는 새로운 최신 기준 성능을 달성한다.
GDT 기반 모델과 비교해 HMDB-51에서 7.0%p, UCF-101에서 3.8%p 향상된 성능를 기록하였으며, 이는 유사한 대비 학습 설정을 사용한 바탕이다.
특징 공간에서의 크롭만으로도 교차 모달 기반 모델 대비 1.7%p 향상된 성능를 기록하여, 공간적 불변성 학습의 효과를 입증한다.
전역 평균 풀링을 트랜스포머 기반 풀링으로 대체하면 모든 프레임 길이에서 4% 이상 성능 향상을 기록한다. 특히 평균 풀링을 사용할 경우 매우 긴 시퀀스에서 성능 저하가 두드러진다.
특징 공간에서의 크롭과 자기 주의 기반 풀링의 조합이 가장 우수한 성능를 기록하며, 아블레이션 스터디 결과 이 두 구성 요소가 상호 보완적이며 모두 필수적임을 입증한다.
AudioSet(기존 Kinetics-400보다 10배 큰 데이터셋)에서 사전학습한 모델들조차도 STiCA가 뛰어난 성능를 기록함으로써, 본 방법의 높은 데이터 효율성과 강력한 인덕티브 바이어스를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.