QUICK REVIEW

[논문 리뷰] Video Summarization with Attention-Based Encoder-Decoder Networks

Zhong Ji, Kailin Xiong|arXiv (Cornell University)|2017. 08. 31.

Video Analysis and Summarization참고 문헌 17인용 수 54

한 줄 요약

이 논문은 AVS를 도입한다. AVS는 감독된 비디오 요약을 위한 주의 기반 인코더-디코더 프레임워크로, A-AVS와 M-AVS 모델을 사용하여 SumMe 및 TVSum에서 최첨단과의 성능 향상을 보인다.

ABSTRACT

This paper addresses the problem of supervised video summarization by formulating it as a sequence-to-sequence learning problem, where the input is a sequence of original video frames, the output is a keyshot sequence. Our key idea is to learn a deep summarization network with attention mechanism to mimic the way of selecting the keyshots of human. To this end, we propose a novel video summarization framework named Attentive encoder-decoder networks for Video Summarization (AVS), in which the encoder uses a Bidirectional Long Short-Term Memory (BiLSTM) to encode the contextual information among the input video frames. As for the decoder, two attention-based LSTM networks are explored by using additive and multiplicative objective functions, respectively. Extensive experiments are conducted on three video summarization benchmark datasets, i.e., SumMe, and TVSum. The results demonstrate the superiority of the proposed AVS-based approaches against the state-of-the-art approaches,with remarkable improvements from 0.8% to 3% on two datasets,respectively..

연구 동기 및 목표

대용량 비디오 콘텐츠의 효율적인 탐색 및 검색을 촉진하기 위해 간결하고 정보가 풍부한 요약을 생성한다.
프레임 시퀀스를 키샷 시퀀스로 매핑하는 시퀀스-투-시퀀스 문제로 비디오 요약을 공식화한다.
프레임 수준의 중요도를 모델링하기 위해 주의 기반 BiLSTM 인코더와 주의 기반 LSTM 디코더를 활용한다.
AVS 내에서 두 가지 주의 메커니즘(덧셈적 및 곱셈적)을 개발하여 인간 주석에 의해 안내된 프레임 중요도를 학습한다.
두 벤치마크 데이터세트에서 최첨단 감독 및 비감독 방법보다 우수한 성능을 입증한다.

제안 방법

비디오 프레임 간의 맥락 정보를 포착하기 위해 Bidirectional LSTM(BiLSTM) 인코더를 사용한다.
가중합된 인코더 주석 vt의 가중치 αt,i를 사용하여 컨텍스트 벡터 Vt를 계산하는 주의 기반 LSTM 디코더를 도입한다.
디코더 상태와 인코더 출력 간의 관련성을 측정하기 위한 주의 스코어링 방식으로 덧셈적(A-AVS) 및 곱셈적(M-AVS)을 제안한다.
디코더로부터 프레임 수준 중요도 점수를 생성하고 이를 Kernel Temporal Segmentation(KTS)을 통해 샷 수준 점수로 변환한다.
길이 예산 내에서 키샷을 선택하기 위한 0/1 Knapsack 최적화를 해결하여 최종 비디오 요약을 형성한다.
2개의 데이터셋(SumMe, TVSum)을 GoogleNet 기반 특징과 F-measure 평가 지표로 평가한다.

실험 결과

연구 질문

RQ1주의 기반 인코더-디코더 아키텍처가 고정된 컨텍스트 인코더보다 더 효과적으로 정보가 풍부한 프레임에 주의를 집중함으로써 감독 비디오 요약을 향상시킬 수 있는가?
RQ2덧셈적 및 곱셈적 주의 구성은 디코더 출력과 프레임 수준 시각 특성 간의 정렬에 서로 다른 이점을 제공하는가?
RQ3AVS 변형은 SumMe와 TVSum에서 최첨단 감독 및 비감독 방법과 어떻게 비교되는가?
RQ4주의 메커니즘 및 데이터 확장이 요약 성능에 어떤 영향을 미치는가?

주요 결과

AVS 변형(A-AVS 및 M-AVS)은 F-score에서 SumMe 및 TVSum에서 최첨단 방법을 능가한다.
M-AVS는 두 데이터셋에서 일반적으로 A-AVS보다 더 높은 성능을 보인다.
주의 기반 AVS는 비주의(LSTM-VS) 기준보다 F-score에서 6-10% 크게 향상된다.
주의는 약 9 프레임에서 성능이 피크에 도달하는 경향을 보여 주며, KTS 분할 후 샷 길이와의 정렬을 시사한다.
외부 데이터세트를 포함한 데이터 확장은 SumMe와 TVSum 모두에서 F-score에 일관된 이익을 제공한다.
AVS 방법은 베이스라인보다 더 고르게 분포된 고중요도 샷 선택의 질적 특성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.