QUICK REVIEW

[논문 리뷰] Weakly Supervised Dense Video Captioning

Zhiqiang Shen, Jianguo Li|arXiv (Cornell University)|2017. 04. 05.

Multimodal Machine Learning Applications참고 문헌 53인용 수 27

한 줄 요약

이 논문은 영상 수준 문장 애너테이션만을 사용하여 다수의 다양하고 정보적인 캡션을 생성하는 움직임 감지 비디오 캡션 방법을 제안한다. 이는 고비용의 영역-시퀀스 애너테이션을 피함으로써, 비용이 많이 드는 영역-시퀀스 애너테이션 없이도 성능을 달성한다. 이는 어휘 기반 완전 컨volution 네트워크(Lexical-FCN)를 활용해 약한 감독 시각-어휘 정렬을 수행하고, 다각적 영역-시퀀스 탐색을 위해 서브모듈라 최적화를 사용하며, 캡션 생성을 위해 순서 기반 모델링을 적용함으로써 MSR-VTT에서 최신 기술 수준의 성능을 달성한다. 단일 캡션 성능이 이전 방법들에 비해 크게 뛰어나다.

ABSTRACT

This paper focuses on a novel and challenging vision task, dense video captioning, which aims to automatically describe a video clip with multiple informative and diverse caption sentences. The proposed method is trained without explicit annotation of fine-grained sentence to video region-sequence correspondence, but is only based on weak video-level sentence annotations. It differs from existing video captioning systems in three technical aspects. First, we propose lexical fully convolutional neural networks (Lexical-FCN) with weakly supervised multi-instance multi-label learning to weakly link video regions with lexical labels. Second, we introduce a novel submodular maximization scheme to generate multiple informative and diverse region-sequences based on the Lexical-FCN outputs. A winner-takes-all scheme is adopted to weakly associate sentences to region-sequences in the training phase. Third, a sequence-to-sequence learning based language model is trained with the weakly supervised information obtained through the association process. We show that the proposed method can not only produce informative and diverse dense captions, but also outperform state-of-the-art single video captioning methods by a large margin.

연구 동기 및 목표

밀도 높은 비디오 캡션에서 영역-시퀀스 수준 애너테이션의 부족 문제를 해결하기 위해, 영상 수준 문장 애너테이션만으로 학습 가능하도록 하는 것.
약한 감독된 비디오 데이터에서 정보적이고 다양한 영역-시퀀스를 자동으로 탐지하는 것.
문장-영역-시퀀스 정렬에 대해 강한 감독이 필요 없이 고품질의 다양한 캡션을 생성하는 것.
약한 감독 모델과 오라클 시스템 간의 성능 격차를 줄이는 것.

제안 방법

문장 내 어휘 단어를 영상의 공간 그리드 영역에 매핑하는 약한 감독 다중 인스턴스 다중 레이블 학습 프레임워크인 Lexical-FCN를 제안한다.
Lexical-FCN 활성도 점수를 기반으로 다양한 정보성 있는 영역-시퀀스를 생성하기 위해 서브모듈라 최적화 기법을 도입한다.
지표 정렬이 필요 없이, 학습 중에 승자독점 전략을 사용하여 문장을 생성된 영역-시퀀스에 약한 연결을 부여한다.
약한 연결된 영역-시퀀스와 문장 쌍을 기반으로 학습된 순서 기반 언어 모델을 활용해 유창하고 맥락에 부합하는 캡션을 생성한다.
잠재 의미 분석(LSA)을 사용해 문장 유사도를 계산하고, LSA 임bedded 문장 표현의 코사인 유사도를 활용해 캡션의 다양성을 평가한다.
성능 비교를 위해 상한선으로 오라클 재순서 및 연결(OR+ORE)을 사용하여 약한 감독과 완전 감독 성능 간 격차를 평가한다.

실험 결과

연구 질문

RQ1영역-시퀀스 또는 문장-영역-시퀀스 애너테이션 없이 영상 수준 문장 애너테이션만으로 밀도 높은 비디오 캡션을 효과적으로 학습할 수 있는가?
RQ2서브모듈라 최적화가 약한 감독 시각-어휘 활성도에서 다양한 정보성 있는 영역-시퀀스를 효과적으로 탐지할 수 있는가?
RQ3약한 감독 모델이 완전 감독 또는 오라클 시스템에 비해 얼마나 잘 성능을 내는가?
RQ4생성된 캡션의 다양성이 인간 애너테이션 기반 지표 캡션보다 뛰어나거나 유사한가?

주요 결과

제안된 방법은 MSR-VTT 검증 세트에서 CIDEr 점수 37.3을 기록하여 최신 기술 수준의 단일 캡션 방법들보다 크게 앞서는 성능을 달성한다.
모델이 생성한 최고의 단일 캡션은 CIDEr 점수 37.3을 기록했으며, 이는 이전 최신 기술 수준보다 11.2점 높은 성능이다.
생성된 캡션의 다양성 점수(0.501)는 원래 20개의 인간 애너테이션 기반 지표 캡션(0.463)의 다양성 점수를 초월하여 더 높은 다양성을 보여준다.
모델의 성능이 오라클 상한선(OR+ORE)에 비해 상대적으로 작으며, 상위 5개 평균 정밀도가 오라클 성능의 90.4%에 이르러, 약한 감독에도 불구하고 강력한 일반화 능력을 보여준다.
영상 수준 애너테이션만으로도 높은 성능을 달성함으로써, 약한 감독 밀도 높은 비디오 캡션의 가능성과 효과성을 입증한다.
정성적 결과 및 다양성 평가를 통해 모델이 다수의 영역과 시간 세그먼트에 걸쳐 의미적으로 다양하고 맥락에 부합하는 캡션을 생성함을 확인할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.