QUICK REVIEW

[논문 리뷰] Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning

Jingkuan Song, Zhao Guo|arXiv (Cornell University)|2017. 06. 05.

Multimodal Machine Learning Applications참고 문헌 21인용 수 36

한 줄 요약

이 논문은 비디오 캡션 생성을 위한 계층적 LSTM인 hLSTMat을 제안하며, 시각적 단어와 비시각적 단어를 동적으로 구분하여 언제 시각적 특징을 사용할지 또는 언어적 맥락을 사용할지 결정함으로써 시각적 단어에만 주의를 집중시킵니다. 시간적 주의를 통해 프레임을 선택하고, 비시각적 단어에서는 불필요한 시각적 주의를 억제하기 위해 조정된 주의를 적용함으로써, MSVD(53.0% B@4, 33.6% METEOR)와 MSR-VTT(38.3% B@4, 26.3% METEOR)에서 최신 기준 성능을 달성합니다.

ABSTRACT

Recent progress has been made in using attention based encoder-decoder framework for video captioning. However, most existing decoders apply the attention mechanism to every generated word including both visual words (e.g., "gun" and "shooting") and non-visual words (e.g. "the", "a"). However, these non-visual words can be easily predicted using natural language model without considering visual signals or attention. Imposing attention mechanism on non-visual words could mislead and decrease the overall performance of video captioning. To address this issue, we propose a hierarchical LSTM with adjusted temporal attention (hLSTMat) approach for video captioning. Specifically, the proposed framework utilizes the temporal attention for selecting specific frames to predict the related words, while the adjusted temporal attention is for deciding whether to depend on the visual information or the language context information. Also, a hierarchical LSTMs is designed to simultaneously consider both low-level visual information and high-level language context information to support the video caption generation. To demonstrate the effectiveness of our proposed framework, we test our method on two prevalent datasets: MSVD and MSR-VTT, and experimental results show that our approach outperforms the state-of-the-art methods on both two datasets.

연구 동기 및 목표

시각적 신호가 필요하지 않은 비시각적 단어(예: 'the', 'a')에 주의 메커니즘을 적용할 경우 캡션 생성을 오도할 수 있는 문제를 해결하기 위해.
시각적 정보를 언제 사용할지 언어 맥락을 언제 사용할지 자동으로 결정할 수 있는 프레임워크를 설계하여 주의의 효율성과 정확도를 향상시키기 위해.
저수준의 시각적 특징과 고수준의 언어 맥락을 동시에 모델링할 수 있는 계층적 LSTMs를 통합하여 더 풍부한 시간적 및 의미적 표현을 가능하게 하기 위해.
시간적 주의 및 조정된 시간적 주의 메커니즘을 결합하여 기존 방법보다 표준 비디오 캡션 벤치마크에서 승리하기 위해.

제안 방법

모델은 각 비디오 프레임의 공간적 특징을 추출하기 위해 2D CNN(ResNet-152)를 사용합니다.
두 층으로 구성된 계층적 LSTM이 시각적 특징과 언어 맥락을 모두 처리하여 다중 해상도의 시간적 모델링을 가능하게 합니다.
시간적 주의는 현재 단어와의 관련성에 기반해 각 디코딩 단계에서 관련성이 높은 비디오 프레임을 선택합니다.
조정된 시간적 주의는 시각적 특징을 사용할지 또는 순수하게 언어 맥락에 의존할지를 결정하여, 비시각적 단어에서 불필요한 시각적 주의를 억제합니다.
단어 유형(시각적 vs. 비시각적)에 따라 동적으로 주의를 라우팅함으로써, 시각적 모델링과 언어 모델링을 함께 최적화합니다.
모델은 추론 시 빔 서치를 사용하고, 교차 엔트로피 손실을 통해 엔드 투 엔드로 훈련됩니다.

실험 결과

연구 질문

RQ1비시각적 단어에 주의를 집중시키는 데 소요되는 오버헤드를 줄이기 위해, 시각적 신호를 언제 사용할지 동적으로 결정할 수 있는 비디오 캡션 모델은 가능한가요?
RQ2시각적 특징과 언어 특징을 계층적으로 모델링할 경우, 표준 LSTM에 비해 비디오 캡션 성능에 어떤 영향을 미치나요?
RQ3비시각적 단어에 대해 시각적 주의를 억제하는 조정된 주의 메커니즘이 기존 주의 메커니즘보다 성능 향상에 기여하는가요?
RQ4제안된 프레임워크는 MSVD 및 MSR-VTT 데이터셋에서 최신 기준 방법을 초월할 수 있는가요?
RQ5시간적 주의와 조정된 시간적 주의의 통합은 캡션 품질과 의미 커버리지에 어떤 영향을 미치나요?

주요 결과

MSVD 데이터셋에서 hLSTMat는 53.0% B@4와 33.6% METEOR를 달성하여, 최고의 베이스라인(p-RNN)보다 B@4에서 8.7% 향상되고 METEOR에서 2.5% 향상되었습니다.
조정된 주의를 적용한 모델(hLSTMat)은 베이스라인 hLSTMt보다 B@4에서 0.9% 향상되고 METEOR에서 0.3% 향상되어 조정 메커니즘이 효과적임을 입증했습니다.
MSR-VTT 데이터셋에서 hLSTMat는 38.3% B@4와 26.3% METEOR를 기록하여 두 지표에서 새로운 최신 기준 성능을 수립했습니다.
인간 평가 결과 hLSTMat는 총합 캡션 품질에서 가장 높은 순위를 기록했으며, 정확성에서는 경쟁력이 있었지만 정보 커버리지에서는 p-RNN에 비해 略로 낮았습니다.
제거 실험을 통해 계층적 LSTMs와 조정된 시간적 주의의 조합이 표준 주의 또는 단일 주의 메커니즘보다 성능 향상에 크게 기여하는 것으로 확인되었습니다.
모델는 VGGNet, C3D, 옵티컬 플로우 등 여러 네트워크를 사용하는 방법보다도 오직 ResNet-152 특징만을 사용함으로써 뛰어난 성능을 달성하여 효율성과 효과성을 입증했습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.