Skip to main content
QUICK REVIEW

[논문 리뷰] VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation

Linjie Li, Jie Lei|arXiv (Cornell University)|2021. 06. 08.
Multimodal Machine Learning Applications참고 문헌 71인용 수 38
한 줄 요약

VALUE 벤치마크는 다중 채널 입력(video frames와 subtitles)을 통해 검색, QA, 자막 처리에 걸친 11개 VidL 데이터셋을 다루고, 융합 방법과 다-task 학습을 분석하며 이전 가능성을 벤치마크한다.

ABSTRACT

Most existing video-and-language (VidL) research focuses on a single dataset, or multiple datasets of a single task. In reality, a truly useful VidL system is expected to be easily generalizable to diverse tasks, domains, and datasets. To facilitate the evaluation of such systems, we introduce Video-And-Language Understanding Evaluation (VALUE) benchmark, an assemblage of 11 VidL datasets over 3 popular tasks: (i) text-to-video retrieval; (ii) video question answering; and (iii) video captioning. VALUE benchmark aims to cover a broad range of video genres, video lengths, data volumes, and task difficulty levels. Rather than focusing on single-channel videos with visual information only, VALUE promotes models that leverage information from both video frames and their associated subtitles, as well as models that share knowledge across multiple tasks. We evaluate various baseline methods with and without large-scale VidL pre-training, and systematically investigate the impact of video input channels, fusion methods, and different video representations. We also study the transferability between tasks, and conduct multi-task learning under different settings. The significant gap between our best model and human performance calls for future study for advanced VidL models. VALUE is available at https://value-benchmark.github.io/.

연구 동기 및 목표

  • 다양한 데이터셋과 태스크에 걸친 VidL 이해를 위한 통합된 다중 태스크 평가 플랫폼을 제공한다.
  • 다중 채널 입력(video frames와 subtitles)을 활용하고 태스크 간 지식을 공유하는 모델을 촉진한다.
  • VidL 태스크 간의 전이 가능성과 다중 작업 학습의 이점을 평가한다.

제안 방법

  • 검색, QA, 자막처리를 포괄하는 11개 VidL 데이터셋을 구성한다.
  • 다중 채널 입력 설정(video frames + subtitles)과 태스크-특정 헤드를 갖춘 기본 HERO 아키텍처를 사용한다.
  • 비디오와 자막 정보를 결합하기 위한 다양한 융합 전략을 평가한다.
  • 다양한 시각 표현(2D/3D 특징, CLIP 기반 옵션)과 프리-train링을 실험한다.
  • 태스크 간 전이 가능성과 다중 태스크 학습(태스크별, 도메인별, 모든 태스크)을 연구한 뒤 개별 태스크에서 미세조정한다.
  • 미리 추출된 특징, 시작 코드, VALUE 서버의 리더보드를 제공한다.

실험 결과

연구 질문

  • RQ1VALUE 태스크 전반에 걸쳐 비디오 채널과 자막 채널이 성능에 얼마나 기여하는가?
  • RQ2어떤 비디오-자막 융합 전략이 모든 태스크에서 최고의 일반화를 보이는가?
  • RQ3다양한 시각 표현이 VidL 태스크 성능에 미치는 영향은 무엇인가?
  • RQ4VALUE 내 태스크와 도메인 간 표현의 전이 가능성은 어느 정도인가?
  • RQ5단일 태스크 모델에 비해 다중 태스크 학습이 여러 VidL 태스크에서 성능을 향상시킬 수 있는가?

주요 결과

  • 비디오 채널과 자막 채널의 결합은 VALUE 태스크 전반에서 최고의 메타 평균 점수(52.52)를 산출한다.
  • 자막 입력은 YC2R 및 일부 QA 태스크에 특히 도움이 되며, VATEX 태스크는 비디오 정보에 더 의존한다.
  • 이중 흐름 융합은 통합 융합 방법에 비해 성능이 떨어지며; HERO 융합이 넓은 일반화에 최적이다.
  • 다른 VidL 태스크 간의 태스크 전이가 제한적이며, 도메인 및 태스크 간 간극을 강조한다.
  • All-tasks 다중 태스크 학습(AT)은 메타 평균을 52.33으로 향상시키고 종종 단일 태스크 모델보다 우수하며 상당한 파라미터 효율성을 제공한다; 다중 태스크 모델에서의 미세 조정(AT → ST)은 추가 이득을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.