QUICK REVIEW

[論文レビュー] VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation

Linjie Li, Jie Lei|arXiv (Cornell University)|Jun 8, 2021

Multimodal Machine Learning Applications参考文献 71被引用数 38

ひとこと要約

VALUEベンチマークは、複数チャネル入力（動画フレームと字幕）を用いた情報検索、QA、キャプション作成の11個のVidLデータセットを横断し、フュージョン手法とマルチタスク学習を分析し、転移可能性をベンチマークする。

ABSTRACT

Most existing video-and-language (VidL) research focuses on a single dataset, or multiple datasets of a single task. In reality, a truly useful VidL system is expected to be easily generalizable to diverse tasks, domains, and datasets. To facilitate the evaluation of such systems, we introduce Video-And-Language Understanding Evaluation (VALUE) benchmark, an assemblage of 11 VidL datasets over 3 popular tasks: (i) text-to-video retrieval; (ii) video question answering; and (iii) video captioning. VALUE benchmark aims to cover a broad range of video genres, video lengths, data volumes, and task difficulty levels. Rather than focusing on single-channel videos with visual information only, VALUE promotes models that leverage information from both video frames and their associated subtitles, as well as models that share knowledge across multiple tasks. We evaluate various baseline methods with and without large-scale VidL pre-training, and systematically investigate the impact of video input channels, fusion methods, and different video representations. We also study the transferability between tasks, and conduct multi-task learning under different settings. The significant gap between our best model and human performance calls for future study for advanced VidL models. VALUE is available at https://value-benchmark.github.io/.

研究の動機と目的

多様なデータセットとタスクに跨る VidL 理解のための統一されたマルチタスク評価プラットフォームを提供する。
動画フレームと字幕というマルチチャネル入力を活用し、タスク間で知識を共有するモデルを推奨する。
VidLタスク間の転移可能性とマルチタスク学習の利点を評価する。

提案手法

検索 (retrieval)、QA、キャプション作成を含む11の VidL データセットを揃える。
マルチチャネル入力設定（動画フレーム＋字幕）を用い、タスク固有のヘッドを備えたベースライン HERO アーキテクチャを採用する。
動画と字幕情報を結合するさまざまなフュージョン戦略を評価する。
さまざまな視覚表現（2D/3D特徴、CLIPベースのオプション）と事前学習を試す。
タスク間の転移性と複数のマルチタスク学習（タスク別、ドメイン別、全タスク）を検討し、その後個々のタスクでファインチューンする。
事前抽出特徴、スターターコード、VALUEサーバーでのリーダーボードを提供する。

実験結果

リサーチクエスチョン

RQ1VALUEタスク全体で、動画チャネルと字幕チャネルはどの程度性能に寄与するか？
RQ2どの動画-字幕フュージョン戦略が全タスクで最も良い一般化をもたらすか？
RQ3異なる視覚表現がVidLタスクの性能に与える影響は？
RQ4VALUE内のタスク間・ドメイン間で表現はどれくらい転移可能か？
RQ5単一タスクモデルと比較して、マルチタスク学習は複数のVidLタスクの性能を向上させるか？

主な発見

動画と字幕チャネルを組み合わせると、VALUEタスク全体のメタ平均スコアで最も高い値（52.52）を得られる。
字幕入力はYC2Rおよび一部のQAタスクで特に有用であり、VATEXタスクは動画情報により依存する。
二流ストリーム融合は統合型融合手法と比べて性能が劣る；HEROフュージョンは広範な一般化に最適。
タスク転移性は異なるVidLタスク間で限定的で、ドメインとタスクのギャップを浮き彫りにしている。
全タスクのマルチタスク学習（AT）はメタ平均を52.33に向上させ、単一タスクモデルを上回ることが多く、パラメータ効率も高い；マルチタスクモデルからのファインチューニング（AT → ST）でさらなる改善を得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。