QUICK REVIEW

[논문 리뷰] Weakly-Supervised Multi-Level Attentional Reconstruction Network for Grounding Textual Queries in Videos

Yijun Song, Jingwen Wang|arXiv (Cornell University)|2020. 03. 16.

Multimodal Machine Learning Applications참고 문헌 30인용 수 51

한 줄 요약

논문은 영상에서 텍스트 질의를 약지도 감독으로 grounding하는 모델 MARN을 소개하며, 제안 샘플링 및 클립 수준 주의(attentional) 재구성을 통해 주의점을 학습하고 Charades-STA 및 ActivityNet-Captions에서 약지도 감독 방법들 중 최상위 성능을 달성한다.

ABSTRACT

The task of temporally grounding textual queries in videos is to localize one video segment that semantically corresponds to the given query. Most of the existing approaches rely on segment-sentence pairs (temporal annotations) for training, which are usually unavailable in real-world scenarios. In this work we present an effective weakly-supervised model, named as Multi-Level Attentional Reconstruction Network (MARN), which only relies on video-sentence pairs during the training stage. The proposed method leverages the idea of attentional reconstruction and directly scores the candidate segments with the learnt proposal-level attentions. Moreover, another branch learning clip-level attention is exploited to refine the proposals at both the training and testing stage. We develop a novel proposal sampling mechanism to leverage intra-proposal information for learning better proposal representation and adopt 2D convolution to exploit inter-proposal clues for learning reliable attention map. Experiments on Charades-STA and ActivityNet-Captions datasets demonstrate the superiority of our MARN over the existing weakly-supervised methods.

연구 동기 및 목표

훈련 중 시간적 주석 없이 영상 내 텍스트 질의를 시간적으로 grounding 하는 문제를 다룬다.
질의 재구성을 통해 제안 수준과 클립 수준 주의를 영상 수준 감독과 연결한다.
가변 길이 제안을 다루기 위한 학습 가능한 스케일 의식적 제안 표현을 개발한다.
다중 수준 주의가 표준 벤치마크에서 grounding 정확도를 향상시킴을 보인다.

제안 방법

가변 제안 규모를 처리하기 위한 다이나믹 샘플링 기법과 3D 컨볼루션을 통해 고정 길이의 차별적 제안 표현을 생성하는 제안 모듈을 구성한다.
제안 특징과 질의 표현을 융합하고 연속된 2D 컨볼루션을 적용하여 제안 간 컨텍스트를 포착함으로써 제안 수준 주의를 계산한다.
주 attended 글로벌 비디오 표현을 사용하여 질의를 재구성하는 주의 재구성 손실을 도입하고 제안 점수화를 영상 수준 감독과 연결한다.
대략적인 정보를 포착하고 훈련을 정규화하기 위해 제안 가지(branch)와 매개변수를 공유하는 클립 수준 재구성 분기를 포함한다.
추론 시 학습된 주의에 따라 제안을 정렬하고 필요 시 클립 수준 주의를 융합 규칙으로 보정한다.

실험 결과

연구 질문

RQ1약한 감독(영상-문장 쌍만)을 사용하여 명시적 세그먼트 주석 없이 질의 관련 영상 구간을 어떻게 정확히 로컬라이즈할 수 있는가?
RQ2제안 수준과 클립 수준에서의 주의 재구성이 시각 콘텐츠와 텍스트 질의 사이의 강한 정렬을 강제할 수 있는가?
RQ3프레임 수준이나 간단한 풀링 베이스라인 대비 제안 내/제안 간 상호 작용 모델링이 grounding 정확도를 향상시키는가?
RQ4훈련 및 추론 시 다중 수준(제안+클립) 주의가 어떤 이점을 제공하는가?

주요 결과

MARN은 Charades-STA 및 ActivityNet-Captions 데이터셋에서 기존의 약지도 감독 비디오 grounding 방법들보다 더 좋은 성능을 보인다.
Charades-STA에서 MARN은 IoU=0.7에서의 R@1이 이전의 약지도 방법들보다 높아 보다 정밀한 grounding을 나타낸다.
ActivityNet-Captions에서 MARN은 여러 약지도 기반 베이스라인을 능가하고 특정 메트릭에서 일부 완전 감독 방법과도 경쟁하며 특히 높은 IoU 임계치에서 강력하다.
3D 컨볼루션 기반의 제안 내 표현, 3x3 간 제안 간 컨텍스트, 다중 수준(클립 수준) 확장의 ablation 연구가 모두 성능 향상에 기여한다.
다중 수준 학습(클립 수준)이 훈련 시 grounding 정확도를 높이고 제안 수준 주의와 결합 시 추론 성능을 추가로 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.