QUICK REVIEW

[논문 리뷰] Memory-augmented Dense Predictive Coding for Video Representation Learning

Tengda Han, Weidi Xie|arXiv (Cornell University)|2020. 08. 03.

Human Pose and Action Recognition참고 문헌 60인용 수 81

한 줄 요약

MemDPC는 압축 메모리와 예측 주의를 통해 다중 미래 가설을 가능하게 하는 메모리 증강 예측 부호화 프레임워크를 제시하여, 시각 입력만으로 동작 인식, 검색, 데이터 제한 학습, 비의도적 행동 탐지에서 최첨단 또는 경쟁력 있는 성과를 달성합니다.

ABSTRACT

The objective of this paper is self-supervised learning from video, in particular for representations for action recognition. We make the following contributions: (i) We propose a new architecture and learning framework Memory-augmented Dense Predictive Coding (MemDPC) for the task. It is trained with a predictive attention mechanism over the set of compressed memories, such that any future states can always be constructed by a convex combination of the condense representations, allowing to make multiple hypotheses efficiently. (ii) We investigate visual-only self-supervised video representation learning from RGB frames, or from unsupervised optical flow, or both. (iii) We thoroughly evaluate the quality of learnt representation on four different downstream tasks: action recognition, video retrieval, learning with scarce annotations, and unintentional action classification. In all cases, we demonstrate state-of-the-art or comparable performance over other approaches with orders of magnitude fewer training data.

연구 동기 및 목표

오직 시각 스트림만을 사용한 자기지도 비디오 표현 학습의 필요성 제시.
메모리 증강 밀집 예측 부호화 프레임워크인 MemDPC를 제안하고, 다중 가설 미래 예측을 위한 압축 메모리 구성 제시.
메모DPC를 동작 인식, 검색, 데이터-제한 학습, 비의도적 행동 탐지 전반에 걸쳐 평가하여 최첨단 혹은 경쟁력 있는 결과를 확립.

제안 방법

비디오를 블록으로 분할하고 공유 인코더 f(.)로 각 블록의 임베딩을 추출하여 z_i를 얻는다.
블록 임베딩을 시간 모델 g(.)로 집계하여 과거 정보를 요약하는 컨텍스트 c_t를 형성한다.
Compressive Memory M = {m_i}를 도입하여 예측 주소 지정 메커니즘 p = softmax(φ(c_t))를 통해 다중 가설 미래 예측을 가능하게 한다.
미래의 블록 표현 ŷ_{t+1}를 메모리 슬롯의 컨벡스 조합으로 예측한다: ŷ_{t+1} = p_t+1 M, 여기서 p는 φ(.)(MLP)에 의해 학습된다.
정렬된 미래 블록에 대한 (ŷ_{i,k}, z_{i,k}) 간의 유사도를 배치 및 시공간 위치 전체의 음수보다 높게 끌어올리는 Dense 대조적 예측 손실로 학습한다.
선택적으로 MemDPC를 RGB와 옵티컬 플로우의 이중 흐름 입력 및 양방향 집계로 확장하여 표현을 향상시킨다.

실험 결과

연구 질문

RQ1자기지도 설정에서의 inherently 다중 가설 미래 프레임의 특성을 메모리-증강 예측 프레임워크가 다룰 수 있는가?
RQ2압축 외부 메모리 도입이 표준 DPC에 비해 예측 부호화 및 다운스트림 태스크 성능을 향상시키는가?
RQ3RGB, 옵티컬 플로우, 또는 둘 다를 사용할 때 학습 표현이 다운스트림 태스크에 미치는 영향은 무엇인가?
RQ4선형 대 프로브와 비선형 프로브 및 엔드-투-엔드 파인튜닝의 효과는 어떤 차이가 있는가?
RQ5MemDPC가 동작 인식, 비디오 검색, 데이터 부족 학습, 비의도적 행동 분류에서 어떤 성능을 보이는가?

주요 결과

네트워크	자기지도 학습	지도 학습	데이터셋	입력	해상도	메모리 크기	UCF101(ft)
A	R18	UCF101	RGB	128x128	-	-	63.6
B1	R18	-	RGB	128x128	-	-	61.8
B2	R18	-	Flow	128x128	-	-	74.6
B3	R18×2	-	RGB+F	128x128	-	-	78.7
C1	R18	UCF101	RGB	128x128	512	512	65.3
C2	R18	UCF101	RGB	128x128	1024	1024	68.2
C3	R18	UCF101	RGB	128x128	2048	2048	68.0
D1	R18	UCF101	Flow	128x128	1024	1024	81.9
D2	R18×2	UCF101	RGB+F	128x128	1024	1024	84.0
E1	R18-bd	UCF101	RGB	128x128	1024	1024	69.2
E2	R18-bd	UCF101	Flow	128x128	1024	1024	82.3
E3	R18-bd×2	UCF101	RGB+F	128x128	1024	1024	84.3

메모리 압축을 활용한 MemDPC는 시각 입력만을 사용한 다수 벤치마크에서 최첨단 또는 동등한 성과를 consistently 보인다.
in ablations에서 메모리 크기 1024가 최적의 UCF101 성능을 자주 제공한다.
양방향 집계 및 이중 스트림 확장(RGB+Flow)이 추가 이득을 제공하며, 특히 흐름 기반 검색 및 동작 인식에서 뚜렷한 향상을 보인다.
K400 사전 학습에서 MemDPC는 선형/비선형 및 전체 파인튜닝 프로토콜 하에서 경쟁력 있는 UCF101 및 HMDB51 정확도를 달성하며, 종종 더 큰 데이터 세트나 다중 모달 입력을 사용하는 방법보다 우수한 경우가 있다.
MemDPC는 데이터 효율성이 우수하여 라벨이 적은 데이터일 때도 표현이 상당한 향상을 가능하게 한다.
영상 검색에서 Flow를 활용한 MemDPC는 R@k 점수를 크게 향상시키며, RGB+Flow 융합은 시각-전용 자기지도 방법들 중에서 선도적인 성능을 달성한다.
의도치 않은 행동 분류(Oops 데이터셋)에서 MemDPC는 심지어 작은 백본과 자기지도 사전학습으로도 최첨단 성과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.