[논문 리뷰] Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of Sentence in Video
이 논문은 다중 스케일 슬라이딩 윈도우와 MIL을 통해 먼저 거친 비디오 구간을 선택한 다음, 미세한 프레임-문장 상호작용 및 watershed 기반 그룹핑을 통해 정확한 프레임 경계를 세밀화하는 두 단계의 약지도-감 Temporal grounding 방법을 제안한다.
In this paper, we study the problem of weakly-supervised temporal grounding of sentence in video. Specifically, given an untrimmed video and a query sentence, our goal is to localize a temporal segment in the video that semantically corresponds to the query sentence, with no reliance on any temporal annotation during training. We propose a two-stage model to tackle this problem in a coarse-to-fine manner. In the coarse stage, we first generate a set of fixed-length temporal proposals using multi-scale sliding windows, and match their visual features against the sentence features to identify the best-matched proposal as a coarse grounding result. In the fine stage, we perform a fine-grained matching between the visual features of the frames in the best-matched proposal and the sentence features to locate the precise frame boundary of the fine grounding result. Comprehensive experiments on the ActivityNet Captions dataset and the Charades-STA dataset demonstrate that our two-stage model achieves compelling performance.
연구 동기 및 목표
- 비디오의 문장을 매 Grounding하기 위해 비용이 많이 드는 시간적 주석에 대한 의존도를 줄이는 동기를 제시한다.
- 훈련 중 시간적 주석 없이 쿼리와 일치하는 비디오 구간을 의미적으로 로컬라이즈한다.
- 정확한 시작/종료 타임스탬프를 달성하기 위한 거칠게-세밀한 프레임워크를 개발한다.
- MIL를 활용하여 비디오-문장 쌍과 슬라이딩 윈도우 제안을 학습한다.
- ActivityNet Captions와 Charades-STA에서 효과를 입증한다.
제안 방법
- GloVe 임베딩 이후 Bi-LSTM으로 문장을 인코딩한다.
- 프레임 특징과 Bi-LSTM으로 비디오를 맥락화하여 인코딩한다.
- 80% 중첩을 가지는 다중 스케일 슬라이딩 윈도우로 고정 길이의 시간적 제안을 생성한다.
- 거친 단계: 분류/선정의 두 흐름 기반 Grounder와 MIL 학습을 이용해 융합 멀티모달 점수를 계산한다.
- 정밀 단계: 거친 구간을 확장하고 문장과의 프레임 수준 상호작용을 수행한 뒤 프레임별 점수를 예측하고 watershed 기반 그룹화를 통해 정확한 경계를 얻는다.
- 두 단계로 학습한다: 먼저 MIL 손실이 있는 거친 단계, 그런 다음 순위를 기반 손실이 있는 정밀 단계로 올바른/잘못된 비디오-문장 쌍을 구분한다.
실험 결과
연구 질문
- RQ1약지도(시간적 주석이 없는 경우)로도 경쟁력 있는 시간적 매칭 성능을 달성할 수 있는가?
- RQ2거친-정밀 전략이 단일 단계 접근보다 경계 정밀도를 향상시키는가?
- RQ3프레임 수준의 정밀한 상호작용이 제안 수준(거친) 추론과 비교해 매칭 정확도에 어떤 영향을 미치는가?
주요 결과
| 방법 | R@1 IoU=0.1 | R@1 IoU=0.3 | R@1 IoU=0.5 | mIoU |
|---|---|---|---|---|
| ActivityNet Captions - CTRL (전적으로 감독된) | 49.1 | 28.7 | 14.0 | 20.5 |
| ActivityNet Captions - Yuan et al. (전적으로 감독된) | 73.3 | 55.7 | 36.8 | 37.0 |
| ActivityNet Captions - Xu et al. (전적으로 감독된) | - | 45.3 | 27.7 | - |
| ActivityNet Captions - He et al. (전적으로 감독된) | - | - | 36.9 | - |
| ActivityNet Captions - Mithun et al. (약지도) | 62.7 | 42.0 | 23.3 | 28.2 |
| ActivityNet Captions - Gao et al. (GRU, 약지도) | 74.0 | 42.3 | 22.5 | 31.8 |
| ActivityNet Captions - Gao et al. (BERT, 약지도) | 75.4 | 42.8 | 22.7 | 32.2 |
| ActivityNet Captions - Ours (약지도) | 74.2 | 44.3 | 23.6 | 32.2 |
| Charades-STA - CTRL (전적으로 감독된) | - | 23.6 | 8.9 | - |
| Charades-STA - Xu et al. (전적으로 감독된) | 54.7 | 35.6 | 15.8 | - |
| Charades-STA - He et al. (전적으로 감독된) | - | 36.7 | - | - |
| Charades-STA - Mithun et al. (약지도) | 32.1 | 19.9 | 8.8 | - |
| Charades-STA - Ours (약지도) | 39.8 | 27.3 | 12.9 | 27.3 |
- 제안된 이차 단계 모델은 약지도 하에서 ActivityNet Captions와 Charades-STA에서 경쟁력 있는 성능을 달성한다.
- 거친 단계만으로도 무작위 제안 선택을 크게 능가하며 견고한 매칭 기반을 제공한다.
- 정밀 단계의 프레임 수준 상호작용과 watershed 기반 그룹화는 거친 결과보다 시간적 경계 정밀도를 향상시킨다.
- 전체적인 거칠-정밀 모델은 기준선 및 여러 약지도 방법을 능가하며 핵심 지표에서 일부 전일지도 방법을 근접하거나 능가한다.
- 절단(b) 분석은 두 흐름의 거친 Grounder 사용이 거친 단계에 이익을 주고, FC 기반 정밀 Grounder가 정밀 로컬라이제이션에 더 나은 성능을 보임을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.