[논문 리뷰] Recurrent Mixture Density Network for Spatiotemporal Visual Attention
본 논문은 3D-CNN 특징, LSTM 백본, 그리고 Gaussian Mixture Network를 활용하여 인간과 유사한 비디오 주의를 예측하는 시공간 주의 모델인 RMDN을 제안하고, 주의 예측 및 동작 인식 성능을 모두 향상시킨다.
In many computer vision tasks, the relevant information to solve the problem at hand is mixed to irrelevant, distracting information. This has motivated researchers to design attentional models that can dynamically focus on parts of images or videos that are salient, e.g., by down-weighting irrelevant pixels. In this work, we propose a spatiotemporal attentional model that learns where to look in a video directly from human fixation data. We model visual attention with a mixture of Gaussians at each frame. This distribution is used to express the probability of saliency for each pixel. Time consistency in videos is modeled hierarchically by: 1) deep 3D convolutional features to represent spatial and short-term time relations and 2) a long short-term memory network on top that aggregates the clip-level representation of sequential clips and therefore expands the temporal domain from few frames to seconds. The parameters of the proposed model are optimized via maximum likelihood estimation using human fixations as training data, without knowledge of the action in each video. Our experiments on Hollywood2 show state-of-the-art performance on saliency prediction for video. We also show that our attentional model trained on Hollywood2 generalizes well to UCF101 and it can be leveraged to improve action classification accuracy on both datasets.
연구 동기 및 목표
- 자동 분석에서 방해가 되는 정보를 필터링하기 위해 비디오의 시각적 주의를 동기화하고 모델링한다.
- 동작 라벨 없이 인간 고정(fixations)으로부터 직접 학습되는 시공간 주의 예측기를 개발한다.
- 클립 단위 3D CNN 특징과 LSTM 기반 시간 축적을 활용하여 프레임 단위의 주의 맵을 생성한다.
- 예측된 주의 맵이 다운스트림 동작 인식 성능을 향상시킨다는 것을 보인다.
- Hollywood2에서 최첨단 주의 예측을 입증하고 UCF101으로의 일반화를 평가한다.
제안 방법
- 각 비디오 클립(16 프레임)을 3D CNN 특징(C3D)으로 표현한다.
- 장기 시간적 일관성을 위해 LSTM으로 클립 표현을 시간적으로 집계한다.
- 주의를 가우시안 혼합 모델(GMM)로 예측하며, GMM 매개변수는 LSTM에서 나오는 밀집층(dense layer)이 생성한다(MDN).
- 인간 고정 데이터로 최대우도 추정을 이용해 네트워크를 학습하고, 시간에 따른 역전파(backpropagation through time)를 적용한다.
- 테스트 시점에 GMM 기반 주의 맵을 정규화하여 픽셀별 확률 분포를 형성한다.
- 맥락과 주의 가중 표현의 연결 및 선형 SVM 분류기를 통해 행동 인식을 개선하기 위해 주의를 소프트 어텐션으로 활용한다.
실험 결과
연구 질문
- RQ1액션 라벨 없이 고정 데이터(fixation data)를 사용하여 깊은 순환 모델이 비디오에서 시공간 인간 주의를 예측할 수 있는가?
- RQ23D CNN 클립 표현을 LSTM 및 MDN과 결합하면 Hollywood2에서 최첨단 주의 예측을 달성하는가?
- RQ3예측된 주의 맵이 Hollywood2에서의 동작 인식 성능을 향상시키고 UCF101로 일반화될 수 있는가?
주요 결과
| 모델 | 프레임당 고정 | AUC | NSS | CC | Sim |
|---|---|---|---|---|---|
| 학습된 중앙 바이어스 | 150 | 0.8725 | 1.7646 | 0.5297 | 0.4812 |
| RMDN RNN(128) | 80 | 0.8745 | 1.9505 | 0.5495 | 0.4962 |
| RMDN LSTM(128) | 80 | 0.8866 | 2.0155 | 0.4606 | 0.4219 |
| RMDN LSTM(256) | 150 | 0.8986 | 2.5169 | 0.6007 | 0.5278 |
| RMDN full LSTM(256) | 150 | 0.9037 | 2.6455 | 0.6129 | 0.5349 |
- RMDN은 Hollywood2에서 AUC, NSS, CC, 및 유사도 지표에서 학습된 중앙 바이어스(Central Bias) 기준을 능가한다.
- LSTM 기반 순환 MDN은 RNN 기반 기준보다 주의 예측 정확도가 더 높고 프레임당 더 많은 고정으로부터 이점을 얻는다.
- 20 개의 GMM 구성요소를 갖춘 전체 RMDN은 Hollywood2에서 최첨단 주의 결과를 달성한다 (AUC 0.9037, NSS 2.6455, CC 0.6129, Sim 0.5349).
- 예측 시점의 주의 추론은 빠르다(16프레임 클립당 GPU에서 0.08초).
- 실제 주의 지도(Ground-truth)와 예측된 지도는 Hollywood2에서 소프트 어텐션으로 사용될 때 유사한 향상을 보이며, 주의 가중 특성들을 연결할 때 평균 mAP 개선을 보인다.
- UCF101에서 C3D 특징과 주의 가중 특징을 결합하면 성능이 향상되고(C3D + RMDN + 선형 SVM이 맥락 단독보다 약 1.1% 향상), 중앙 바이어스 추가 시 추가 이득이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.