[논문 리뷰] End-to-End Learning of Visual Representations from Uncurated Instructional Videos
본 논문은 MIL-NCE를 도입하여 비정제된 내레이션 설명형 비디오에서 수작업 주석 없이도 공동 영상-텍스트 표현을 학습하는 MIL 기반 Noise Contrastive Estimation 목적을 제시하고, 다수의 하위 작업에서 강력한 성능을 보임을 보여줍니다.
Annotating videos is cumbersome, expensive and not scalable. Yet, many strong video models still rely on manually annotated data. With the recent introduction of the HowTo100M dataset, narrated videos now offer the possibility of learning video representations without manual supervision. In this work we propose a new learning approach, MIL-NCE, capable of addressing misalignments inherent to narrated videos. With this approach we are able to learn strong video representations from scratch, without the need for any manual annotation. We evaluate our representations on a wide range of four downstream tasks over eight datasets: action recognition (HMDB-51, UCF-101, Kinetics-700), text-to-video retrieval (YouCook2, MSR-VTT), action localization (YouTube-8M Segments, CrossTask) and action segmentation (COIN). Our method outperforms all published self-supervised approaches for these tasks as well as several fully supervised baselines.
연구 동기 및 목표
- 비정제된 설명형 비디오에서 수동 주석 없이도 강력한 시각적 표현 학습의 동기를 부여한다.
- 비디오 콘텐츠와 내레이션 간의 불일치를 처리하기 위해 MIL-NCE를 제안한다.
- 원시 픽셀과 ASR로 전사된 내레이션에서 처음부터 공동 비디오-텍스트 임베딩을 학습한다.
- 학습된 표현이 다양한 downstream 비디오 이해 작업으로 잘 전이되는지 보여준다.
제안 방법
- f가 비디오 클립을 임베딩으로 매핑하고 g가 내레이션을 동일한 임베딩 공간으로 매핑하는 간단한 조인트 임베딩 모델을 정의한다.
- 각 학습 예제에 대해 양성 후보 쌍의 집합을 합산하고 음성 대조를 수행하는 MIL-NCE 손실을 도입하여 잘 맞지 않는 경우에도 학습이 가능하도록 한다.
- 비디오 클립의 실제 설명으로 잠재적으로 맞는 것으로 간주될 수 있는 시간적으로 인접한 내레이션들을 양성 후보 세트로 구성한다.
- 현재 배치에서 샘플링한 음성들을 음성-텍스트의 후보 음성으로 간주하고 MIL 확장을 분자에 포함한 구분적 소프트맥스 기반 NCE 목적 함수로 학습한다.
- 대칭적 대조 샘플링과 비대칭 샘플링을 비교하고 비디오와 내레이션 양쪽에서 음성을 샘플링할 때 최상의 성능이 나오는 것을 보인다.
- HowTo100M에서 수동 라벨 없이 학습된 3D CNN 백본(I3D/S3D) 및 텍스트 모델로 공동 임베딩을 구성하여 학습한다.
실험 결과
연구 질문
- RQ1수많은 수작업 주석 없이도 비정제된 내레이션 비디오에서 MIL-NCE가 유용한 공동 영상-텍스트 표현을 학습할 수 있는가?
- RQ2다중 양성 후보 및 대칭적 음성 샘플링이 영상-내레이션 간 불일치 하에서 학습을 개선하는가?
- RQ3학습된 표현이 행동 인식, 검색, 로컬라이제이션, 세분화 등 여러 다운스트림 작업에서 자기감독 학습 및 지도 학습 기준선에 비해 얼마나 잘 수행하는가?
- RQ4이 설정에서 간단한 언어 모델이 영상-텍스트 매칭에 충분한가?
주요 결과
- MIL-NCE가 비정제된 설명형 비디오를 사용해 처음부터 강력한 비디오 표현을 학습한다.
- 본 방법은 다수의 작업에서 게시된 자기지도 학습 방식 및 많은 완전 지도 기반 기준선보다 더 높은 성능을 eight 데이터셋에 걸쳐 달성한다.
- 다중 양성 내레이션 후보를 사용하는 것이 단일 인스턴스 학습보다 성능을 향상시키며, 최상의 결과는 3–5개의 양성을 사용할 때 나타난다.
- 대칭적 샘플링(비디오와 내레이션 모두에서 음성 샘플링)이 비대칭적 대안보다 더 나은 결과를 낳는다.
- 공동 비디오-텍스트 표현은 강력한 텍스트-비디오 검색 성능을 달성하고 일부 데이터셋에서 타깃 데이터셋 훈련 없이도 최첨단 결과를 기록한다.
- HowTo100M에서 학습된 시각 표현이 다양한 행동 인식 및 로컬라이제이션 벤치마크에 잘 일반화된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.