[논문 리뷰] Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning
Vid2Seq는 라벨이 없는 내레이티드 비디오에서 사전 학습된 다중 모달 단일 단계 밀집 이벤트 자막 생성 모델로, 시각 입력과 전사 음성 입력에서 이벤트 경계와 자막을 공동으로 예측합니다. 이는 여러 밀집 비디오 자막 벤치마크에서 최첨단 결과를 달성하고, 단락 및 클립 자막 작문으로 일반화되며, 소수 샷 설정도 가능하다.
In this work, we introduce Vid2Seq, a multi-modal single-stage dense event captioning model pretrained on narrated videos which are readily-available at scale. The Vid2Seq architecture augments a language model with special time tokens, allowing it to seamlessly predict event boundaries and textual descriptions in the same output sequence. Such a unified model requires large-scale training data, which is not available in current annotated datasets. We show that it is possible to leverage unlabeled narrated videos for dense video captioning, by reformulating sentence boundaries of transcribed speech as pseudo event boundaries, and using the transcribed speech sentences as pseudo event captions. The resulting Vid2Seq model pretrained on the YT-Temporal-1B dataset improves the state of the art on a variety of dense video captioning benchmarks including YouCook2, ViTT and ActivityNet Captions. Vid2Seq also generalizes well to the tasks of video paragraph captioning and video clip captioning, and to few-shot settings. Our code is publicly available at https://antoyang.github.io/vid2seq.html.
연구 동기 및 목표
- 수 분 길이의 비디오에서 이벤트를 공동으로 로컬화하고 자막을 생성하는 통합 시퀀스-투-시퀀스 작업으로 밀집 비디오 자막 생성을 고무한다.
- 전사된 음성 경계를 사전 학습용 의사 이벤트 경계로 재구성하여 라벨이 없는 내레이티드 비디오를 활용한다.
- 대규모 크로스모달 사전 학습이 다수 데이터셋에서 밀집 자막, 단락 자막, 비디오 클립 자막 생성을 개선함을 보여준다.
- 언어 모델의 규모와 사전 학습 데이터 규모의 이점과 소수 샷 미세 조정을 탐구한다.
제안 방법
- 텍스트 자막과 이벤트 타임스탬프를 나타내는 특별한 시간 토큰을 포함하는 단일 시퀀스의 토큰을 출력하는 다중 모달 인코더-디코더인 Vid2Seq를 제안한다.
- 시간 토큰을 포함하도록 기존 언어 모델을 보강하여 자막과 시간 경계의 공동 생성을 하나의 시퀀스에서 가능하게 한다.
- 시간 토큰과 텍스트 토큰을 교차 배치하여 출력 이벤트 시퀀스와 입력 음성 시퀀스를 구성하고, 고정된 CLIP ViT-L/14 시각 백본을 사용한다.
- 라벨이 없는 내레이티드 비디오에서 두 가지 목표로 사전 학습: 시각으로부터 전사 음성을 예측하는 생성 목표와 마스킹된 음성 구간을 복구하는 노이즈 제거 목표.
- 이벤트 시퀀스의 가능도 최대화로 다운스트림 밀집 비디오 자막 작성을 미세 조정하고 추론 시 빔 검색을 사용한다.
- 시간 토큰이 포함된 미삭되거나 미가공 내레이티드 비디오에서의 사전 학습이 성능을 향상시키고, 자막과 로컬라이제이션의 결합이 로컬라이제이션 지표에 이점을 준다를 시연한다.
실험 결과
연구 질문
- RQ1단일 통합 모델이 다중 모달 입력으로부터 밀집 비디오 자막과 그 시간적 위치를 함께 생성할 수 있는가?
- RQ2약한 지도학습을 갖는 라벨이 없는 내레이티드 비디오에서의 대규모 사전 학습이 데이터셋 전반에 걸친 밀집 비디오 자막 작성을 향상시키는가?
- RQ3입력 모달리티(시각만 vs 시각+음성)와 사전 학습 목표(생성 및 노이즈 제거)가 성능에 어떠한 영향을 미치는가?
- RQ4언어 모델의 규모와 사전 학습 데이터 규모가 다운스트림 밀집 비디오 자막 작업에 미치는 영향은 무엇인가?
- RQ5Vid2Seq가 단락 자막, 비디오 클립 자막, 그리고 소수 샷 밀집 자막에 일반화할 수 있는가?
주요 결과
- Vid2Seq는 YouCook2, ViTT, ActivityNet Captions에서 밀집 비디오 자막에 대해 최첨단 성능을 달성한다.
- 시간 토큰 통합이 있는 비재단된 내레이티드 비디오에서의 사전 학습은 베이스라인보다 상당한 이득을 주며, 시간 토큰은 음성 경계를 활용하는 데 결정적이다.
- 이벤트 경계와 자막을 공동으로 예측하는 것이 로컬라이제이션 지표를 로컬라이제이션 전용 변형보다 향상시킨다.
- 더 큰 언어 모델(예: T5-Base)과 더 큰 사전학습 데이터(YT-Temporal-1B, HowTo100M)가 더 강력한 결과를 가져오며, 사전학습 데이터를 확장할 때 주목할 만한 이득이 있다.
- Vid2Seq는 비디오 단락 자막 및 비디오 클립 자막으로 일반화되며, 소수 샷 설정에서 이점을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.