QUICK REVIEW

[論文レビュー] AIM 2024 Challenge on Video Saliency Prediction: Methods and Results

Andrey Moskalenko, Alexey Bryncev|arXiv (Cornell University)|Sep 23, 2024

Visual Attention and Saliency Detection被引用数 8

ひとこと要約

本論文は AIM 2024 Video Saliency Prediction Challenge を調査し、クラウドソーシングによるマウストラッキングで収集された AViMoS データセットを紹介し、Transformer ベースのアーキテクチャに大きく依存する7つの競合解法を詳述する。音声を用いたものやデュアル/マルチブランチ設計を採用するものもある。

ABSTRACT

This paper reviews the Challenge on Video Saliency Prediction at AIM 2024. The goal of the participants was to develop a method for predicting accurate saliency maps for the provided set of video sequences. Saliency maps are widely exploited in various applications, including video compression, quality assessment, visual perception studies, the advertising industry, etc. For this competition, a previously unused large-scale audio-visual mouse saliency (AViMoS) dataset of 1500 videos with more than 70 observers per video was collected using crowdsourced mouse tracking. The dataset collection methodology has been validated using conventional eye-tracking data and has shown high consistency. Over 30 teams registered in the challenge, and there are 7 teams that submitted the results in the final phase. The final phase solutions were tested and ranked by commonly used quality metrics on a private test subset. The results of this evaluation and the descriptions of the solutions are presented in this report. All data, including the private test subset, is made publicly available on the challenge homepage - https://challenges.videoprocessing.ai/challenges/video-saliency-prediction.html.

研究の動機と目的

ビデオサリエンシー予測のための大規模な音声-視覚マウスサリエンシーデータセット（AViMoS）を提示し、そのグランドトゥルース品質を検証する。
標準的なサリエンシーメトリクスを用いて、プライベートテストサブセットで多様な方法をベンチマークする。
最先端のサリエンシ予測をもたらすアーキテクチャとモダリティ（視覚、音声）を特定する。
再現性とさらなる研究を可能にするために、公開可能なデータ、コード、結果を提供する。

提案手法

空間-時間特徴を抽出するために、Transformer ベースのバックボーン（例：Video Swin Transformer）を用いたエンコーダ-デコーダアーキテクチャを採用する。
デコーダにマルチ解像度特徴を組み込み、異なる空間スケールに対応する。
低解像度コンテキストと高解像度ディテールを分離するデュアルブランチ設計を検討し、クロスアテンション機構（例：SCAM）を用いる。
適用可能な場合、音声情報を音声-視覚サリエンシーモデルに組み込む。
4つの指標（AUC-Judd、CC、SIM、NSS）を用いてモデルを比較し、指標間の平均ランキングを報告する。
公開データセット分割を提供する（訓練 1000 本のビデオ、テスト 500 本のビデオ）と、最終評価用のプライベートテストサブセット。

Figure 1 : RPN for video saliency prediction.

実験結果

リサーチクエスチョン

RQ1大規模な AViMoS データセットで訓練した場合、Transformer ベースのアーキテクチャはビデオサリエンシーを効果的に予測できるか。
RQ2映像シークエンスに音声情報を組み込むことでサリエンシ予測性能が向上するか。
RQ3デュアルブランチおよびマルチ解像度戦略は、単一ブランチ法と比較してサリエンシ予測精度にどのような影響を与えるか。
RQ4AIM 2024 AViMoS ベンチマークにおけるモデルサイズ（#params）とサリエンシ予測性能の関係は何か。

主な発見

チーム名	AUC-Judd	CC	SIM	NSS	順位	#Params(M)
CV_MM	0.894	0.774	0.635	3.464	1.00	420.5
VistaHL	0.892	0.769	0.623	3.352	2.75	187.7
PeRCeiVe Lab	0.857	0.766	0.610	3.422	3.75	402.9
SJTU-MML	0.858	0.760	0.615	3.356	4.00	1288.7
MVP	0.838	0.749	0.587	3.404	5.00	99.6
ZenithChaser	0.869	0.606	0.517	2.482	5.50	0.19
Exodus	0.861	0.599	0.510	2.491	6.00	69.7
Baseline	0.833	0.449	0.424	1.659	8.00	-

上位解法は主に空間-時間特徴を抽出するために Transformer ベースのエンコーダを使用していた。
優勝チーム（CV_MM）はUMTモデルと多解像度デコーダ機能を組み合わせた。
2位（VistaHL）は低解像度コンテキストブランチに導かれた高解像度ディテールブランチを備えたデュアルストリーム手法を提案。
複数のチームが音声情報を取り入れて音声-視覚サリエンシーモデルを形成（SJTU-MML、Exodus）。
AViMoS データセットは、フィルタリングと整列ステップ後、アイトラッキングデータとのグランドトゥルース整合性が高い（AUC-Judd>0.91、CC>0.84、SIM>0.74）。
公開およびプライベートテストの結果は複数指標（AUC-Judd、CC、SIM、NSS）で報告され、チーム間で競争力のあるパフォーマンスを示す。
ベースラインのセンタープライヤーと主催者のベースラインは比較の基準点を提供する。

Figure 2 : An overview of the proposed network. SC [ 25 ] , SE [ 17 ] , and ShuffleAttn [ 54 ] are plug-and-play attention modules. SWF and GA stand for Saliency-Weighted Feature Module and Gated Attention, respectively.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。