QUICK REVIEW

[논문 리뷰] DAVE: A Deep Audio-Visual Embedding for Dynamic Saliency Prediction

Hamed R. Tavakoli, Ali Borji|arXiv (Cornell University)|2019. 05. 25.

Visual Attention and Saliency Detection참고 문헌 64인용 수 28

한 줄 요약

이 논문은 시각적 및 听覚적 자극을 종합적으로 활용하는 간단하면서도 효과적인 딥 오디오-비주얼 임베딩 모델인 DAVE를 제안한다. 새로 구축한 오디오-비주얼 눈동착 데이터베이스(AVE)에서 훈련함으로써, 청각 정보가 시각적 모델에 비해 상당한 성능 향상을 이끌어내며, 특히 시각적으로 확인 가능한 소리의 원천에서 인간의 시선 패턴과 유사하게 정확하게 주목점을 예측함을 입증한다.

ABSTRACT

This paper studies audio-visual deep saliency prediction. It introduces a conceptually simple and effective Deep Audio-Visual Embedding for dynamic saliency prediction dubbed ``DAVE" in conjunction with our efforts towards building an Audio-Visual Eye-tracking corpus named ``AVE". Despite existing a strong relation between auditory and visual cues for guiding gaze during perception, video saliency models only consider visual cues and neglect the auditory information that is ubiquitous in dynamic scenes. Here, we investigate the applicability of audio cues in conjunction with visual ones in predicting saliency maps using deep neural networks. To this end, the proposed model is intentionally designed to be simple. Two baseline models are developed on the same architecture which consists of an encoder-decoder. The encoder projects the input into a feature space followed by a decoder that infers saliency. We conduct an extensive analysis on different modalities and various aspects of multi-model dynamic saliency prediction. Our results suggest that (1) audio is a strong contributing cue for saliency prediction, (2) salient visible sound-source is the natural cause of the superiority of our Audio-Visual model, (3) richer feature representations for the input space leads to more powerful predictions even in absence of more sophisticated saliency decoders, and (4) Audio-Visual model improves over 53.54\% of the frames predicted by the best Visual model (our baseline). Our endeavour demonstrates that audio is an important cue that boosts dynamic video saliency prediction and helps models to approach human performance. The code is available at https://github.com/hrtavakoli/DAVE

연구 동기 및 목표

기존 영상 주목력 모델이 주로 시각적 자극에 의존함에 따라 청각 정보 통합의 부족을 해결하기 위해.
딥 오디오-비주얼 주목력 모델의 훈련 및 평가를 위해 대규모 다중 소스 오디오-비주얼 눈동착 데이터베이스(AVE)를 구축하기 위해.
통제된 아블레이션 및 모odal 분석을 통해 청각 정보가 동적 영상 장면에서 주목력 자극으로서 기여하는 정도를 조사하기 위해.
시각, 청각, 오디오-비주얼 모odal 간 공정한 비교를 지원하는 단순한 엔드 투 엔드 학습 가능한 딥 신경망 아키텍처를 개발하기 위해.
더 풍부한 입력 표현(예: 3D CNN 특징)이 디코더 복잡도를 초월해 주목력 예측 성능을 향상시키는지 평가하기 위해.

제안 방법

주목력 예측을 위한 단순한 인코더-디코더 아키텍처를 제안하며, 시각, 청각, 오디오-비주얼 모델 간 공정한 비교를 위해 공통 구성 요소를 활용한다.
영상 입력으로부터 풍부한 시공간 특징을 추출하기 위해 대규모 영상 데이터셋에서 미리 훈련된 3D 컨볼루션 신경망(3D CNNs)을 사용한다.
원시 오디오 웨이브폼에서 시간적 청각 특징을 추출하기 위해 1D CNN을 적용하여 시각 특징과의 공동 처리를 가능하게 한다.
비주얼 및 청각 특징을 네트워크의 초기 단계에서 융합한 후 공통 디코더 헤드를 통해 주목력 맵을 예측한다.
자유 시청 조건에서 수집한 인간 눈동착 데이터의 진짜 시선 맵을 사용하여 전체 모델을 엔드 투 엔드로 훈련한다.
자연 풍경, 인터뷰, 스포츠 등 세 가지 영상 유형에서 아블레이션 연구를 수행하여 자극 유형별로 모달 기여도를 분석한다.

실험 결과

연구 질문

RQ1비주얼 모델에 비해 청각 정보가 동적 영상 주목력 예측에 상당한 성능 향상을 이끌어내는가?
RQ2시각적으로 확인 가능한 소리의 원천이 존재할 경우 오디오-비주얼 주목력 모델의 성능에 어떤 영향을 미치는가?
RQ3더 풍부한 입력 수준의 표현(예: 대규모 영상 데이터셋에서 미리 훈련된 3D CNN)이 디코더 복잡도와 무관하게 주목력 예측 성능을 얼마나 향상시키는가?
RQ4인간의 시선 예측 정확도 측면에서 오디오-비주얼 모델은 기존의 비디오 전용 주목력 모델에 비해 어떻게 비교되는가?
RQ5모델의 행동이 특히 소리의 원천 위치에 주목하는 인간의 주의 패턴과 일치하는가?

주요 결과

청각은 동적 주목력 예측에 강력하고 유의미한 기여를 하며, 오디오-비주얼 모델이 비주얼 전용 기준 모델보다 53.54%의 화면에서 성능을 뛰어넘는다.
모든 평가 지표와 모든 영상 유형에서 오디오-비주얼 모델이 뛰어난 성능을 보이며, 기준 모델 대비 일관된 성능 향상을 보인다.
모델의 주목력이 시각적으로 확인 가능한 소리의 원천에서 인간의 시선과 유사하게 정렬되며, 이는 청각 정보가 주목력의 정확한 공간적 위치로 이끌어낸다는 것을 시사한다.
더 풍부한 입력 수준의 특징(예: 대규모 영상 데이터셋에서 미리 훈련된 3D CNNs)은 디코더 아키텍처가 단순하더라도 주목력 예측 성능을 향상시킨다.
활성화된 소리의 원천 위치에서의 시선 예측 성능이 비주얼 전용 모델보다 오디오-비주얼 모델이 뚜렷하게 향상되며, 이는 청각 정보가 주의를 이끌어내는 데 기여함을 확인한다.
모델의 성능은 다양한 영상 유형에서 일관되며, 청각 기여도는 명확하고 시각적으로 확인 가능한 소리의 원천이 존재하는 장면에서 가장 두드러진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.