Skip to main content
QUICK REVIEW

[논문 리뷰] Weakly-Supervised Video Object Grounding from Text by Loss Weighting and Object Interaction

Luowei Zhou, Nathan Louis|arXiv (Cornell University)|2018. 05. 08.
Multimodal Machine Learning Applications참고 문헌 25인용 수 61
한 줄 요약

본 논문은 프레임별 손실 가중치와 언어 유도 객체 상호작용을 통해 비디오 세그먼트 내 문장에서 설명된 객체를 약하게 근거화하는 방법을 제시하고, YouCook2-BoundingBox에서 최첨단 성능으로 평가되었다.

ABSTRACT

We study weakly-supervised video object grounding: given a video segment and a corresponding descriptive sentence, the goal is to localize objects that are mentioned from the sentence in the video. During training, no object bounding boxes are available, but the set of possible objects to be grounded is known beforehand. Existing approaches in the image domain use Multiple Instance Learning (MIL) to ground objects by enforcing matches between visual and semantic features. A naive extension of this approach to the video domain is to treat the entire segment as a bag of spatial object proposals. However, an object existing sparsely across multiple frames might not be detected completely since successfully spotting it from one single frame would trigger a satisfactory match. To this end, we propagate the weak supervisory signal from the segment level to frames that likely contain the target object. For frames that are unlikely to contain the target objects, we use an alternative penalty loss. We also leverage the interactions among objects as a textual guide for the grounding. We evaluate our model on the newly-collected benchmark YouCook2-BoundingBox and show improvements over competitive baselines.

연구 동기 및 목표

  • 경계 상자 주석 없이 학습하는 동안 비디오 내 문장에서 언급된 객체를 근거화한다.
  • 희소하게 등장하는 객체를 다루기 위해 세그먼트 수준의 감독을 프레임 수준의 근거화로 전파한다.
  • 객체 상호작용을 텍스트 지침으로 활용하여 근거화를 개선한다.
  • 평가를 위한 경계 상자 주석이 포함된 YouCook2에서 구축된 새로운 비디오 근거화 벤치마크를 제공한다.

제안 방법

  • 대상 객체가 등장할 가능성이 낮을 때 프레임 수준 순위 손실을 낮춰 가중치를 줄이고 페널티 항을 추가하는 프레임별 손실 가중화.
  • 프레임 가중화를 위한 두 가지 신뢰도 신호: (i) 프레임당 시각-의미적 유사도, (ii) 객체 쿼리에 대한 자기 주의를 통한 언어 유도 객체 상호작용.
  • 프레임별 순위 손실과 페널티를 결합한 최종 손실 L과 균형 매개변수 lambda.
  • 언어 기반 신호 생성을 위해 객체 쿼리에 대한 다중 헤드 자기 주의를 사용한 객체 상호작용 모델링.
  • 프레임별 제안과 스케일된 닷 프로덕트 유사도를 갖는 비디오 도메인으로 Grounding by Ranking의 확장.
  • 가장 자주 등장하는 객체의 경계 상자를 포함하는 YouCook2-BoundingBox 데이터셋에 대한 평가.

실험 결과

연구 질문

  • RQ1프레임별 손실 가중화가 비디오에서 희소하게 등장하는 객체에 대한 약지도 근거화를 개선할 수 있는가?
  • RQ2시각적 신호와 언어 지향 객체 상호작용을 결합하는 것이 프레임 비의존적 방법보다 더 나은 근거화를 제공하는가?
  • RQ3제안된 방법이 요리 동영상 근거화 벤치마크에서 기존 기반 방법과 비교하여 어떤 성능을 보이는가?

주요 결과

  • Loss Weighting 모델은 검증 세트와 테스트 세트에서 DVSA 베이스라인보다 박스 정확도를 향상시켰다(Val. 30.07%, Test 31.23%).
  • 객체 상호작용 모델도 기준값보다 향상된다(Val. 29.61%, Test 30.06%).
  • 손실 가중치와 객체 상호작용을 모두 달성한 전체 모델은 더 높은 정확도에 도달한다(Val. 30.31%, Test 31.73%).
  • 상한 정확도(모든 20 제안을 사용할 때)는 57.77% (Val.) 및 58.56% (Test)이다.
  • 더 높은 샘플링 비율은 모든 방법의 성능을 약간 감소시키지만, 제안된 손실 가중치는 촘촘한 프레임 샘플링에서 DVSA보다 강건하다.
  • 요리 영상의 근거화 성능은 특히 정적 객체에 대한 개선을 보이며, 상태 변화에 관여하는 객체에는 일부 한계가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.