QUICK REVIEW

[논문 리뷰] AIM 2024 Challenge on Video Saliency Prediction: Methods and Results

Andrey Moskalenko, Alexey Bryncev|arXiv (Cornell University)|2024. 09. 23.

Visual Attention and Saliency Detection인용 수 8

한 줄 요약

이 논문은 AIM 2024 비디오 주의 예측 대회를 조사하고, 군중 기반 마우스 추적을 통해 수집된 AViMoS 데이터셋을 소개하며, Transformer 기반 아키텍처에 주로 의존하는 일곱 가지 경쟁 솔루션을 상세히 다룬다. 일부는 오디오와 듀얼/멀티-브랜치 설계를 사용한다.

ABSTRACT

This paper reviews the Challenge on Video Saliency Prediction at AIM 2024. The goal of the participants was to develop a method for predicting accurate saliency maps for the provided set of video sequences. Saliency maps are widely exploited in various applications, including video compression, quality assessment, visual perception studies, the advertising industry, etc. For this competition, a previously unused large-scale audio-visual mouse saliency (AViMoS) dataset of 1500 videos with more than 70 observers per video was collected using crowdsourced mouse tracking. The dataset collection methodology has been validated using conventional eye-tracking data and has shown high consistency. Over 30 teams registered in the challenge, and there are 7 teams that submitted the results in the final phase. The final phase solutions were tested and ranked by commonly used quality metrics on a private test subset. The results of this evaluation and the descriptions of the solutions are presented in this report. All data, including the private test subset, is made publicly available on the challenge homepage - https://challenges.videoprocessing.ai/challenges/video-saliency-prediction.html.

연구 동기 및 목표

비디오 주의 예측을 위한 대규모 오디오-비주얼 마우스 주의 데이터셋(AViMoS)을 제시하고 ground-truth 품질을 검증한다.
표준 주의 지표를 사용하여 비공개 테스트 하위 집합에서 다양한 방법을 벤치마킹한다.
주목할 만한 주의 예측을 제공하는 아키텍처 및 모듈(시각, 오디오)을 식별한다.
재현성과 추가 연구를 가능하게 하기 위해 공개 데이터, 코드 및 결과를 제공한다.

제안 방법

Transformer 기반 백본을 갖춘 인코더-디코더 구조를 사용하여 시공간 특징을 추출한다(예: Video Swin Transformer).
디코더에서 다중 해상도 특징을 통합하여 다양한 공간 규모를 다룬다.
저해상도 컨텍스트와 고해상도 세부 정보를 분리하는 듀얼-브랜치 설계를 크로스 어텐션 메커니즘(예: SCAM)으로 활용한다.
가능한 경우 오디오 정보를 오디오-비주얼 주의 모델에 통합한다.
모델을 네 가지 지표(AUC-Judd, CC, SIM, NSS)로 비교하고 지표 간 평균 순위를 보고한다.
공개 데이터셋 분할(학습 1000 비디오, 테스트 500 비디오)과 최종 평가를 위한 비공개 테스트 하위 집합을 제공한다.

Figure 1 : RPN for video saliency prediction.

실험 결과

연구 질문

RQ1Transformer 기반 아키텍처가 대규모 AViMoS 데이터셋에서 학습될 때 비디오 주의 예측을 효과적으로 예측할 수 있는가?
RQ2오디오 정보를 도입하면 비디오 시퀀스의 주의 예측 성능이 향상되는가?
RQ3듀얼-브랜치 및 다중 해상도 전략이 단일 브랜치 방법에 비해 주의 예측 정확도에 어떤 영향을 미치는가?
RQ4모델 크기(#params)와 AIM 2024 AViMoS 벤치마크에서의 주의 예측 성능 간의 관계는 무엇인가?

주요 결과

팀 이름	AUC-Judd	CC	SIM	NSS	순위	#Params(M)
CV_MM	0.894	0.774	0.635	3.464	1.00	420.5
VistaHL	0.892	0.769	0.623	3.352	2.75	187.7
PeRCeiVe Lab	0.857	0.766	0.610	3.422	3.75	402.9
SJTU-MML	0.858	0.760	0.615	3.356	4.00	1288.7
MVP	0.838	0.749	0.587	3.404	5.00	99.6
ZenithChaser	0.869	0.606	0.517	2.482	5.50	0.19
Exodus	0.861	0.599	0.510	2.491	6.00	69.7
Baseline	0.833	0.449	0.424	1.659	8.00	-

상위 솔루션은 주로 시공간 특징을 추출하기 위해 Transformer 기반 인코더를 사용했다.
우승 팀 CV_MM은 UMT 모델과 다중 해상도 디코더 특징을 결합했다.
2위 팀 VistaHL은 저해상도 컨텍스트 분기로 고해상도 디테일 분기를 가이드하는 듀얼 스트림 접근 방식을 제안했다.
여러 팀이 오디오 정보를 채택하여 오디오-비주얼 주의 모델을 형성했다(SJTU-MML, Exodus).
AViMoS 데이터셋은 눈 추적 데이터와의 높은 Ground-truth 정렬을 달성했다(AUC-Judd>0.91, CC>0.84, SIM>0.74) 후 필터링 및 정렬 단계.
공개 및 비공개 테스트 결과가 여러 지표(AUC-Judd, CC, SIM, NSS)로 보고되었고 팀 간의 경쟁력이 확인된다.
베이스라인 센터 프라이어 및 주최 측 베이스라인은 비교를 위한 기준점을 제공한다.

Figure 2 : An overview of the proposed network. SC [ 25 ] , SE [ 17 ] , and ShuffleAttn [ 54 ] are plug-and-play attention modules. SWF and GA stand for Saliency-Weighted Feature Module and Gated Attention, respectively.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.