Skip to main content
QUICK REVIEW

[논문 리뷰] Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of Sentence in Video

Zhenfang Chen, Lin Ma|arXiv (Cornell University)|2020. 01. 25.
Multimodal Machine Learning Applications참고 문헌 26인용 수 48
한 줄 요약

이 논문은 다중 스케일 슬라이딩 윈도우와 MIL을 통해 먼저 거친 비디오 구간을 선택한 다음, 미세한 프레임-문장 상호작용 및 watershed 기반 그룹핑을 통해 정확한 프레임 경계를 세밀화하는 두 단계의 약지도-감 Temporal grounding 방법을 제안한다.

ABSTRACT

In this paper, we study the problem of weakly-supervised temporal grounding of sentence in video. Specifically, given an untrimmed video and a query sentence, our goal is to localize a temporal segment in the video that semantically corresponds to the query sentence, with no reliance on any temporal annotation during training. We propose a two-stage model to tackle this problem in a coarse-to-fine manner. In the coarse stage, we first generate a set of fixed-length temporal proposals using multi-scale sliding windows, and match their visual features against the sentence features to identify the best-matched proposal as a coarse grounding result. In the fine stage, we perform a fine-grained matching between the visual features of the frames in the best-matched proposal and the sentence features to locate the precise frame boundary of the fine grounding result. Comprehensive experiments on the ActivityNet Captions dataset and the Charades-STA dataset demonstrate that our two-stage model achieves compelling performance.

연구 동기 및 목표

  • 비디오의 문장을 매 Grounding하기 위해 비용이 많이 드는 시간적 주석에 대한 의존도를 줄이는 동기를 제시한다.
  • 훈련 중 시간적 주석 없이 쿼리와 일치하는 비디오 구간을 의미적으로 로컬라이즈한다.
  • 정확한 시작/종료 타임스탬프를 달성하기 위한 거칠게-세밀한 프레임워크를 개발한다.
  • MIL를 활용하여 비디오-문장 쌍과 슬라이딩 윈도우 제안을 학습한다.
  • ActivityNet Captions와 Charades-STA에서 효과를 입증한다.

제안 방법

  • GloVe 임베딩 이후 Bi-LSTM으로 문장을 인코딩한다.
  • 프레임 특징과 Bi-LSTM으로 비디오를 맥락화하여 인코딩한다.
  • 80% 중첩을 가지는 다중 스케일 슬라이딩 윈도우로 고정 길이의 시간적 제안을 생성한다.
  • 거친 단계: 분류/선정의 두 흐름 기반 Grounder와 MIL 학습을 이용해 융합 멀티모달 점수를 계산한다.
  • 정밀 단계: 거친 구간을 확장하고 문장과의 프레임 수준 상호작용을 수행한 뒤 프레임별 점수를 예측하고 watershed 기반 그룹화를 통해 정확한 경계를 얻는다.
  • 두 단계로 학습한다: 먼저 MIL 손실이 있는 거친 단계, 그런 다음 순위를 기반 손실이 있는 정밀 단계로 올바른/잘못된 비디오-문장 쌍을 구분한다.

실험 결과

연구 질문

  • RQ1약지도(시간적 주석이 없는 경우)로도 경쟁력 있는 시간적 매칭 성능을 달성할 수 있는가?
  • RQ2거친-정밀 전략이 단일 단계 접근보다 경계 정밀도를 향상시키는가?
  • RQ3프레임 수준의 정밀한 상호작용이 제안 수준(거친) 추론과 비교해 매칭 정확도에 어떤 영향을 미치는가?

주요 결과

방법R@1 IoU=0.1R@1 IoU=0.3R@1 IoU=0.5mIoU
ActivityNet Captions - CTRL (전적으로 감독된)49.128.714.020.5
ActivityNet Captions - Yuan et al. (전적으로 감독된)73.355.736.837.0
ActivityNet Captions - Xu et al. (전적으로 감독된)-45.327.7-
ActivityNet Captions - He et al. (전적으로 감독된)--36.9-
ActivityNet Captions - Mithun et al. (약지도)62.742.023.328.2
ActivityNet Captions - Gao et al. (GRU, 약지도)74.042.322.531.8
ActivityNet Captions - Gao et al. (BERT, 약지도)75.442.822.732.2
ActivityNet Captions - Ours (약지도)74.244.323.632.2
Charades-STA - CTRL (전적으로 감독된)-23.68.9-
Charades-STA - Xu et al. (전적으로 감독된)54.735.615.8-
Charades-STA - He et al. (전적으로 감독된)-36.7--
Charades-STA - Mithun et al. (약지도)32.119.98.8-
Charades-STA - Ours (약지도)39.827.312.927.3
  • 제안된 이차 단계 모델은 약지도 하에서 ActivityNet Captions와 Charades-STA에서 경쟁력 있는 성능을 달성한다.
  • 거친 단계만으로도 무작위 제안 선택을 크게 능가하며 견고한 매칭 기반을 제공한다.
  • 정밀 단계의 프레임 수준 상호작용과 watershed 기반 그룹화는 거친 결과보다 시간적 경계 정밀도를 향상시킨다.
  • 전체적인 거칠-정밀 모델은 기준선 및 여러 약지도 방법을 능가하며 핵심 지표에서 일부 전일지도 방법을 근접하거나 능가한다.
  • 절단(b) 분석은 두 흐름의 거친 Grounder 사용이 거친 단계에 이익을 주고, FC 기반 정밀 Grounder가 정밀 로컬라이제이션에 더 나은 성능을 보임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.