Skip to main content
QUICK REVIEW

[논문 리뷰] Video Understanding as Machine Translation

Bruno Korbar, Fabio Petroni|arXiv (Cornell University)|2020. 06. 12.
Multimodal Machine Learning Applications참고 문헌 59인용 수 26
한 줄 요약

이 논문은 비디오-텍스트 정렬을 기계 번역 작업으로 포지셔닝함으로써 음성 샘플링이 필요 없이 통합된 비디오 이해 프레임워크를 제안한다. 이는 HowTo100M, TVQA, YouCook2와 같은 대규모 데이터셋에서 비디오 분류, 질의 응답, 캡션 생성, 텍스트 기반 검색을 포함한 다양한 최종 작업에서 최신 기술 성능을 달성한다.

ABSTRACT

With the advent of large-scale multimodal video datasets, especially sequences with audio or transcribed speech, there has been a growing interest in self-supervised learning of video representations. Most prior work formulates the objective as a contrastive metric learning problem between the modalities. To enable effective learning, however, these strategies require a careful selection of positive and negative samples often combined with hand-designed curriculum policies. In this work we remove the need for negative sampling by taking a generative modeling approach that poses the objective as a translation problem between modalities. Such a formulation allows us to tackle a wide variety of downstream video understanding tasks by means of a single unified framework, without the need for large batches of negative samples common in contrastive metric learning. We experiment with the large-scale HowTo100M dataset for training, and report performance gains over the state-of-the-art on several downstream tasks including video classification (EPIC-Kitchens), question answering (TVQA), captioning (TVC, YouCook2, and MSR-VTT), and text-based clip retrieval (YouCook2 and MSR-VTT).

연구 동기 및 목표

  • 대부분의 음성 샘플링과 교육 과정 정책에 의존하는 대비적 거리 측정 학습의 한계를 해결하기 위해.
  • 다양한 음성 샘플의 대용량 배치가 필요 없도록, 비디오 이해를 다중 모odal 간 번역 문제로 재정의함으로써.
  • 작업 전용 재학습이나 아키텍처 변경 없이 다양한 최종 비디오 이해 작업을 처리할 수 있는 통합 프레임워크를 개발하기 위해.
  • 비디오와 텍스트의 순서 기반 모델링을 통해 자기 지도 학습을 활용하여 비디오 이해 벤치마크 성능을 향상시키기 위해.
  • 오디오 또는 음성 녹음본을 포함한 대규모 다중 모odal 비디오 데이터셋에서 스케일링 가능한 종단 간 접근 방식을 사용해 효과적인 학습을 가능하게 하기 위해.

제안 방법

  • 이 방법은 비디오-텍스트 정렬을 순서에서 순서로의 번역 문제로 간주하며, 트랜스포머 기반 생성 모델을 사용해 시각적 특징에서 텍스트 기술로의 매핑을 모델링한다.
  • 인코딩된 비디오 특징에 조건부로 텍스트 토큰을 생성하기 위해 인과적 자동회귀 디코더를 사용하여 대비 목적이 없는 종단 간 학습이 가능하다.
  • 비디오 전용 데이터셋인 HowTo100M에서 음성 샘플링 및 다음 토큰 예측 목표를 사용해 대규모로 사전 학습한다.
  • 추론 시, 동일한 생성 헤드를 사용해 분류, 캡션 생성, 검색과 같은 최종 작업에 대해 제로샷 또는 피니튜닝 적응을 수행한다.
  • 오직 양성 쌍(비디오와 해당 텍스트)만을 사용함으로써 대비 학습을 피함으로써, 학습 복잡도를 감소시키고 음성 샘플링이 필요 없어진다.
  • 단일 통합 아키텍처를 통해 여러 작업을 지원하며, 추론 시 작업 전용 프롬프트 엔지니어링 또는 피니튜닝을 적용한다.

실험 결과

연구 질문

  • RQ1비디오 표현 학습을 음성 샘플링이 필요 없는 다중 모달 간 생성 번역 작업으로 효과적으로 포지셔닝할 수 있는가?
  • RQ2다양한 비디오 이해 작업에서 통합 생성 프레임워크는 대비 학습 방법과 비교해 성능 면에서 어떻게 다른가?
  • RQ3동일한 사전 학습 모델이 비디오 분류, 캡션 생성, 텍스트 기반 검색과 같은 최종 작업에 대해 제로샷 또는 소수의 샘플로 얼마나 잘 일반화되는가?
  • RQ4음성 샘플링이 없는 것이 대규모 비디오 데이터셋에서 학습 안정성과 확장성 향상에 기여하는가?
  • RQ5제안된 방법이 EPIC-Kitchens, TVQA, YouCook2, MSR-VTT를 포함한 여러 벤치마크에서 최신 기술 성능을 달성할 수 있는가?

주요 결과

  • 제안된 방법은 비디오 분류에서 최신 기술 성능을 달성했으며, EPIC-Kitchens 벤치마크에서 이전 방법들을 능가한다.
  • 텍스트 기반 클립 검색에서 새로운 최신 기술 성능을 기록했으며, YouCook2 및 MSR-VTT 데이터셋에서 성능 향상을 이뤘다.
  • 비디오 캡션 생성에서 강력한 성과를 기록했으며, TVC, YouCook2 및 MSR-VTT에서 이전 방법들을 뛰어넘었다.
  • 비디오 질의 응답을 위한 TVQA 벤치마크에서 최신 기술 성능을 달성했으며, 강력한 제로샷 일반화 능력을 보였다.
  • 대규모 음성 샘플링과 복잡한 교육 과정 정책이 필요 없어져 학습을 단순화하면서도 성능을 유지하거나 향상시켰다.
  • 동일한 사전 학습 모델을 사용해 최소한의 적응으로 다양한 비디오 이해 작업에 효과적으로 일반화된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.