QUICK REVIEW

[논문 리뷰] Cycle-Contrast for Self-Supervised Video Representation Learning

Quan Kong, Wenpeng Wei|arXiv (Cornell University)|2020. 10. 28.

Human Pose and Action Recognition참고 문헌 37인용 수 32

한 줄 요약

사이클-대조 학습(CCL)은 프레임과 비디오 간의 사이클 일관성을 프레임-및 비디오 도메인 대비 손실로 강제하여 비디오 표현을 학습하고, 검색 및 동작 인식에 전이 가능한 표현을 만들어낸다.

ABSTRACT

We present Cycle-Contrastive Learning (CCL), a novel self-supervised method for learning video representation. Following a nature that there is a belong and inclusion relation of video and its frames, CCL is designed to find correspondences across frames and videos considering the contrastive representation in their domains respectively. It is different from recent approaches that merely learn correspondences across frames or clips. In our method, the frame and video representations are learned from a single network based on an R3D architecture, with a shared non-linear transformation for embedding both frame and video features before the cycle-contrastive loss. We demonstrate that the video representation learned by CCL can be transferred well to downstream tasks of video understanding, outperforming previous methods in nearest neighbour retrieval and action recognition tasks on UCF101, HMDB51 and MMAct.

연구 동기 및 목표

비디오 표현이 두 개의 도메인(비디오와 프레임)으로 구성되어 있으며, 두 도메인에서 서로 가깝고 각 도메인의 다른 요소들과는 멀도록 구성되어야 한다고 주장한다.
비디오와 프레임 간의 소속/포함 관계를 포착하기 위한 사이클-대조 손실을 제안한다.
공유된 비선형 투영을 이용해 프레임 수준과 비디오 수준의 임베딩을 엔드-투-엔드 네트워크에서 학습한다.
CCL 표현이 검색 및 동작 인식과 같은 다운스트리밍 작업으로 잘 전이됨을 입증한다.

제안 방법

공유 투영 모듈을 갖는 같은 네트워크에서 프레임 및 비디오 특징을 추출하기 위해 R3D 유사 백본을 사용한다.
프레임 및 비디오 특징을 두 계층 MLP를 통해 공통 잠재 공간으로 투영한다.
도메인 간의 사이클 일관성을 강제하기 위해 순방향 비디오→프레임 및 역방향 프레임→비디오 사이클-대조 손실을 적용한다.
각 도메인에서 소프트 최근접 이웃을 계산하여 미분 가능 대조 손실(InfoNCE 스타일)을 가능하게 한다.
같은 비디오의 프레임 임베딩 간 다양성을 촉진하기 위한 패널티 항을 도입하여 모드 붕괴를 방지한다.
손실에 가중치를 부여하고 엔드-투-엔드로 학습한다.

실험 결과

연구 질문

RQ1비디오와 그 프레임 간의 사이클 일관성이 도메인 특화 대조 학습과 결합되어 판별 가능하고 전이 가능한 비디오 표현을 생성할 수 있는가?
RQ2프레임-수준 및 비디오-수준 대조 목표가 프레임만 또는 비디오만의 기준선과 비교해 검색 및 동작 인식 성능을 함께 향상시키는가?
RQ3같은 비디오 내 프레임 간 다양성 강제가 임베딩 붕괴를 방지하고 일반화 성능을 향상시키는가?

주요 결과

CCL은 여러 셀프-감독 학습 기준선과 비교하여 UCF101, HMDB51, MMAct에서 최근접 이웃 검색 및 동작 인식 성능을 향상시킨다.
본 방법은 프레임→비디오 및 비디오→프레임 검색 성능이 우수함을 보여주며, 학습된 교차 도메인 대응관계를 시사한다.
프레임 도메인 대조 손실과 다양성 패널티 항의 추가로 비디오 도메인 목적만 사용하는 경우에 비해 상당한 이득이 나타난다.
다운스트림 작업에서의 미세조정은 CCL 기반 표현이 잘 전이됨을 보여주며, 때로는 UCF101과 HMDB51에서 감독식 사전 학습 기준선을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.