[논문 리뷰] HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips
본 논문은 HowTo100M을 소개합니다. 이는 136M 개의 내레이션된 클립으로 구성된 대규모 비디오-언어 데이터셋이며, max-margin ranking loss로 학습된 텍스트-비디오 결합 임베딩을 제시합니다. 이는 instructional 데이터셋에서 최첨단 성능을 달성하고 일반적인 비디오 도메인으로의 강력한 전이(transfers)를 보입니다.
Learning text-video embeddings usually requires a dataset of video clips with manually provided captions. However, such datasets are expensive and time consuming to create and therefore difficult to obtain on a large scale. In this work, we propose instead to learn such embeddings from video data with readily available natural language annotations in the form of automatically transcribed narrations. The contributions of this work are three-fold. First, we introduce HowTo100M: a large-scale dataset of 136 million video clips sourced from 1.22M narrated instructional web videos depicting humans performing and describing over 23k different visual tasks. Our data collection procedure is fast, scalable and does not require any additional manual annotation. Second, we demonstrate that a text-video embedding trained on this data leads to state-of-the-art results for text-to-video retrieval and action localization on instructional video datasets such as YouCook2 or CrossTask. Finally, we show that this embedding transfers well to other domains: fine-tuning on generic Youtube videos (MSR-VTT dataset) and movies (LSMDC dataset) outperforms models trained on these datasets alone. Our dataset, code and models will be publicly available at: www.di.ens.fr/willow/research/howto100m/.
연구 동기 및 목표
- 교육용 비디오에서 자동으로 기록된 내레이션을 활용하여 수동 캡션 없이도 강력한 텍스트-비디오 임베딩을 학습하도록 동기를 부여한다.
- 결합된 비디오-텍스트 표현을 학습하기 위해 확장 가능한 약지도 학습 데이터셋(HowTo100M)을 만든다.
- 결과 임베딩이 교육용 데이터셋에서 강력한 텍스트 기반 검색 및 행동 로컬라이제이션을 제공하고 비교육 도메인으로의 전이가 가능함을 보여준다.
- 데이터 규모와 샘플링 전략이 성능에 결정적으로 영향을 미친다는 것을 보여준다.
제안 방법
- 선행 연구에서 영감을 얻은 비선형 게이티드 프로젝션을 사용하여 비디오와 자막 특징을 공유된 4,096차원 공간으로 매핑하는 공통 임베딩을 학습한다.
- 적절한 비디오-캡션 쌍을 함께 모으고 부적절한 쌍을 멀리 떨어뜨리는 최대-마진 랭킹 손실로 최적화하며, 관련 콘텐츠에 초점을 맞추기 위해 intra-video 음수 샘플링을 사용한다.
- 동영상 클립은 시간적으로 최대풀링된 2D/3D CNN 특징으로 표현하고, 자막은 어휘 임베딩 위에 얕은 텍스트 CNN으로 표현한다.
- Adam으로 HowTo100M에서 엔드투엔드로 학습하고, 올바른 쌍과 잘못된 쌍 사이의 구분을 촉진하기 위해 고정된 마진을 사용한다.
- 다운스트림 작업에 대한 음수 샘플링 전략과 훈련 데이터 규모의 영향을 조사한다.
실험 결과
연구 질문
- RQ1대규모 자동으로 페어링된 텍스트-비디오 데이터셋이 수동으로 주석된 캡션 없이도 강력한 공통 임베딩을 학습하게 할 수 있는가?
- RQ2HowTo100M 사전 학습이 교육용 데이터셋에서 텍스트 기반 비디오 검색 및 동작 로컬라이제이션에 어떤 영향을 미치며 YouTube/LSMDC와의 교차 도메인 전이를 어떻게 돕는가?
- RQ3샘플링 전략과 훈련 데이터 크기가 검색/로컬라이제이션 성능에 미치는 영향은 무엇인가?
- RQ4HowTo100M에서의 사전 학습이 비교육 영상 데이터셋에서의 파인튜닝에 어느 정도 도움을 주는가?
- RQ5데이터 규모가 명확한 포화 없이 지속적인 개선으로 이어지는가?
주요 결과
- HowTo100M에서 학습된 공동 텍스트-비디오 임베딩은 교육용 데이터셋(CrossTask, YouCook2)에서 최첨단 텍스트 기반 로컬라이제이션 및 검색을 달성한다.
- 사전 학습된 HowTo100M 임베딩은 비교육 도메인(MSR-VTT, LSMDC)에 미세 조정을 통해 긍정적으로 전이되며, 이 데이터셋에서 처음부터 학습한 모델보다 성능이 우수하다.
- 동영상 내 음수 샘플링은 검색 및 로컬라이제이션 성능을 크게 향상시키며, 특히 세밀한 교육용 데이터셋에서 그렇다.
- 규모가 중요하다: HowTo100M 데이터 양을 늘리면 포화가 관찰되지 않는 지속적인 이득이 발생하며, 더 많은 데이터가 결과를 더 개선할 수 있음을 시사한다.
- 대상 데이터셋(MSR-VTT, LSMDC)에서 사전 학습된 모델을 파인튜닝하면 상당한 이득이 나타나며, 특정 작업에서 경우에 따라 완전 지도 기반 베이스라인을 넘기도 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.