QUICK REVIEW

[논문 리뷰] Masked Autoencoders As Spatiotemporal Learners

Christoph Feichtenhofer, Haoqi Fan|arXiv (Cornell University)|2022. 05. 18.

Generative Adversarial Networks and Image Synthesis인용 수 243

한 줄 요약

이 논문은 패시브- 시공간 패치를 마스킹하고 픽셀을 재구성하여 Masked Autoencoders를 시공간 비디오 데이터에 확장하였으며, 최소한의 도메인 편향으로 강력한 자체 감독 표현을 달성하고 현저한 속도 향상을 이끈다.

ABSTRACT

This paper studies a conceptually simple extension of Masked Autoencoders (MAE) to spatiotemporal representation learning from videos. We randomly mask out spacetime patches in videos and learn an autoencoder to reconstruct them in pixels. Interestingly, we show that our MAE method can learn strong representations with almost no inductive bias on spacetime (only except for patch and positional embeddings), and spacetime-agnostic random masking performs the best. We observe that the optimal masking ratio is as high as 90% (vs. 75% on images), supporting the hypothesis that this ratio is related to information redundancy of the data. A high masking ratio leads to a large speedup, e.g., > 4x in wall-clock time or even more. We report competitive results on several challenging video datasets using vanilla Vision Transformers. We observe that MAE can outperform supervised pre-training by large margins. We further report encouraging results of training on real-world, uncurated Instagram data. Our study suggests that the general framework of masked autoencoding (BERT, MAE, etc.) can be a unified methodology for representation learning with minimal domain knowledge.

연구 동기 및 목표

최소한의 유도 편향으로 MAE가 효과적인 시공간 비디오 표현을 학습할 수 있는지 조사합니다.
학습 효율성과 비디오 작업 성능에 대한 높은 마스킹 비율의 영향를 조사합니다.
MAE 사전 학습과 감독 사전 학습의 비교를 평가하고 실제 비정제 데이터에 대한 확장성을 탐구합니다.

제안 방법

임의의 시공간 패치를 마스킹하고 픽셀을 재구성함으로써 MAE를 비디오에 확장합니다.
패치 임베딩 및 위치 임베딩을 시공간 인지 구성요소로 사용하여 일반 VGA Transformer를 인코더/디코더로 사용합니다.
정보 활용을 극대화하고 매우 높은 마스킹 비율을 가능하게 하기 위해 시공간에 무관한 무작위 마스킹을 채택합니다.
마스킹된 영역에 대해 예측값과 원래 픽셀 타깃 간의 평균 제곱 오차로 학습합니다.
다운스트림 비디오 인식 데이터세트(Kinetics-400, AVA, SSv2)에서 파인튜닝으로 엔드투엔드 평가합니다.
효율성과 성능 트레이드오프를 연구하기 위해 데이터 전처리, 마스크 샘플링 전략, 디코더 용량을 탐구합니다.

실험 결과

연구 질문

RQ1비디오에서의 MAE 사전 학습이 처음부터 학습하는 것과 비교하여 다운스트리움 비디오 인식 성능을 향상시키나요?
RQ2비디오 MAE에서 정확도와 계산 사이의 최적 트레이드오프를 제공하는 마스킹 비율과 마스킹 전략은 무엇인가요?
RQ3동일하거나 더 큰 데이터셋에서 감독 사전 학습과 비교하여 비디오 데이터의 MAE 사전 학습은 어떤가요?
RQ4실제 비정제 비디오 데이터에서의 MAE 사전 학습이 표준 비디오 벤치마크로 효과적으로 전이될 수 있나요?
RQ5디코더 크기 및 재구성 대상 선택에 대한 결과의 민감성은 얼마나 되나요?

주요 결과

MAE 사전 학습이 여러 ViT 크기에 걸쳐 비디오 인식 정확도를 크게 향상시킵니다(예: scratch 대비 큰 이익).
비디오 MAE의 최적 마스킹 비율은 약 90%이며(더 긴 학습으로 최대 95%), 인코더 시간/메모리 대폭 감소(<1/10) 및 전체 wall-clock 속도 증가(약 4.1배)를 가능하게 하지만 데이터 로딩 병목 현상에도 불구하고.
시공간 무관 마스킹이 구조 인지 전략보다 우수하며, 데이터로부터 효과적인 표현을 학습하는 데 최소한의 시공간 귀납 바이어스가 필요하다는 것을 시사합니다.
Kinetics(및 다른 비디오 데이터세트)에 대한 MAE 사전 학습은 감독 사전 학습과 여러 다운스트림 작업(AVA, SSv2)에서 IN1K 기반 MAE 사전 학습보다 우수할 수 있습니다.
실제 인스타그램 비디오(비선별) 사전 학습은 규모가 큰 큐레이션된 데이터셋 대비 경쟁적이거나 우수한 전이 성능을 보여주며, 대규모 자체 감독 비디오 학습의 실용적 가능성을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.