[논문 리뷰] Video captioning with recurrent networks based on frame- and video-level features and visual content classification
이 논문은 프레임 수준 특징(사전 훈련된 CNN을 통한 关键 프레임에서 추출), 비디오 수준 특징(밀도 있는 궤적), 시각적 콘텐츠 분류기 출력(80개 클래스의 SVM)을 결합하여 기술적 문장 생성을 위한 순환 신경망 기반 영상 설명 생성 시스템을 제안한다. 주요 기여는 LSMDC 2015 벤치마크에서 분류기 출력을 초기 LSTM 입력으로 사용하고, 밀도 있는 궤적 특징을 지속적인 입력으로 사용할 경우 최고의 성능을 달성한다는 것을 입증한 것이다. 비록 더 큰 비드 크기의 경우보다 성능이 떨어지지만, 비드 크기 1이 더 낮은 일반 문장 생성률로 더 우수한 성능을 보였다.
In this paper, we describe the system for generating textual descriptions of short video clips using recurrent neural networks (RNN), which we used while participating in the Large Scale Movie Description Challenge 2015 in ICCV 2015. Our work builds on static image captioning systems with RNN based language models and extends this framework to videos utilizing both static image features and video-specific features. In addition, we study the usefulness of visual content classifiers as a source of additional information for caption generation. With experimental results we show that utilizing keyframe based features, dense trajectory video features and content classifier outputs together gives better performance than any one of them individually.
연구 동기 및 목표
- 정적 이미지 설명 생성을 개선하기 위해 영상 고유의 시간적 특징을 통합하는 영상 설명 생성 시스템을 개발하는 것.
- COCO에서 훈련된 시각적 콘텐츠 분류기가 영화 클립의 설명 생성에 기여하는지 여부를 조사하는 것.
- LSMDC 2015 도전 대회에서 영상 설명 생성을 위한 최적의 특징 아키텍처 구성(프레임 수준, 비디오 수준, 분류기 출력)을 규명하는 것.
- 추론 단계에서의 비드 크기가 설명 품질과 다양성에 미치는 영향을 평가하는 것.
제안 방법
- VGG-16, VGG-19, GoogLeNet의 세 개의 사전 훈련된 CNN을 사용하여 关键 프레임 특징을 추출하였으며, 강건성을 확보하기 위해 공간 피ラ미드 풀링과 평균/최대 풀링을 적용하였다.
- 15프레임 궤적을 사용하여 비디오 클립에서 밀도 있는 궤적 특징을 계산하였으며, 1000차원 히스토그램으로 정량화하였고, HOG, MBHx, MBHy, HOF 기술자를 결합하여 총 5000차원의 비디오 특징을 구성하였다.
- COCO 2014 훈련 이미지에서 80개의 이진 SVM 분류기를 훈련시켜 객체 카테고리 존재 여부를 예측하였으며, 각 关键 프레임에 대해 80차원의 클래스 소속 벡터를 생성하였다.
- LSTM 네트워크를 사용하여 문장을 생성하였으며, 초기 은닉 상태는 SVM 분류기 출력으로 초기화하고, 지속적인 비디오 특징(밀도 있는 궤적)을 각 시간 단계에 입력하였다.
- COCO에서 훈련된 모델 출력을 LSMDC의 어휘와 일치시키기 위해 규칙 기반 어휘 번역을 적용하였으며, 'man' 또는 'person'과 같은 용어를 'SOMEONE'으로 대체하였다.
- LSMDC 2015 테스트 세트에서 BLEU, METEOR, ROUGE, CIDEr 지표를 사용하여 모델을 평가하였으며, 다양한 특징 입력과 비드 크기 조합을 비교하였다.
실험 결과
연구 질문
- RQ1프레임 수준 특징, 비디오 수준 특징, 시각적 콘텐츠 분류기 출력을 융합하는 것이 단일 특징 유형을 사용하는 경우보다 영상 설명 생성 성능을 향상시키는가?
- RQ2COCO에서 사전 훈련된 시각적 콘텐츠 분류기(SVM)를 사용하는 것이 LSMDC 2015 데이터셋의 영화 클립에서의 설명 생성에 유익한가?
- RQ3LSTM 기반의 영상 설명 생성 모델에서 특징 입력의 최적 아키텍처 구성(초기 vs. 지속적 입력)은 무엇인가?
- RQ4추론 단계에서의 비드 크기가 이 프레임워크의 설명 품질과 문장 다양성에 미치는 영향은 무엇인가?
주요 결과
- SVM 분류기 출력을 초기 LSTM 입력으로 사용하고, 밀도 있는 궤적 특징을 지속적 입력으로 사용하는 모델(모델 9: cls+traj)이 LSMDC 2015 블라인드 테스트 세트에서 모든 네 가지 평가 지표에서 최고 성능을 기록하였다.
- 이 모델은 CIDEr 점수 104.2를 기록하여 테스트된 모든 구성 중에서 가장 높았으며, 기준 설명과의 일치도가 뛰어나 설명 품질이 뛰어남을 시사하였다.
- 비디오 수준의 밀도 있는 궤적 특징을 사용하는 것은 뿌리로만 프레임 수준 특징에 의존하는 모델보다 유의미하게 뛰어난 성능을 보였으며, 이는 시간적 운동 패tern이 설명 생성에 가치가 있음을 확인한다.
- 비드 크기 1은 평균 문장 길이 5.33어휘를 생성한 반면, 비드 크기 5는 평균 문장 길이를 3.79어휘로 줄여 더 일반적이고 설명력이 떨어지는 출력을 유도하였다.
- 더 큰 비드 크기는 모델이 높은 가능성만을 가진 너무 일반적인 표현(예: 'SOMEONE looks at SOMEONE')을 선호함으로써 성능이 떨어지는 결과를 초래하였다.
- 프레임 수준 특징과 비디오 수준 특징의 융합은 단독으로 사용할 경우보다 더 좋은 성능을 보였으며, 이는 상호 보완적인 정보의 유용성을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.