QUICK REVIEW

[논문 리뷰] Video-Mined Task Graphs for Keystep Recognition in Instructional Videos

Kumar Ashutosh, Santhosh Kumar Ramakrishnan|arXiv (Cornell University)|2023. 07. 17.

Human Pose and Action Recognition인용 수 10

한 줄 요약

이 논문은 자동으로 라벨이 없는 따라하기 동영상에서 확률적 작업 그래프를 발견하고 이를 사용해 새 동영상에서 핵심 단계 인식을 규제하여 제로샷 로컬라이제이션 및 학습된 비디오 표현을 향상시키며, 여러 지시 영상 벤치마크에서 최첨단 결과를 달성한다.

ABSTRACT

Procedural activity understanding requires perceiving human actions in terms of a broader task, where multiple keysteps are performed in sequence across a long video to reach a final goal state -- such as the steps of a recipe or a DIY fix-it task. Prior work largely treats keystep recognition in isolation of this broader structure, or else rigidly confines keysteps to align with a predefined sequential script. We propose discovering a task graph automatically from how-to videos to represent probabilistically how people tend to execute keysteps, and then leverage this graph to regularize keystep recognition in novel videos. On multiple datasets of real-world instructional videos, we show the impact: more reliable zero-shot keystep localization and improved video representation learning, exceeding the state of the art.

연구 동기 및 목표

프로시저 활동 이해를 주된 목표로 긴 지시 영상 내 keysteps의 작업 수준 구조를 모델링한다.
라벨이 없는 how-to 비디오에서 확률적 작업 그래프를 자동으로 채굴해 keystep 의존성과 일반 전이를 포착한다.
발굴된 작업 그래프를 선행지식으로 활용해 새로운 비디오에서 keystep 인식을 규제하고 향상시킨다.
제로샷 keystep 로컬라이제이션과 HowTo100M을 포함한 대규모 비디오 표현 학습의 이점을 시연하며 다운스트림 작업들을 포함한다.

제안 방법

WikiHow 등 텍스트 기반 자료와 작업별 데이터 세트에서 K로 소싱된 keystep 어휘를 정의한다.
클립 특징(시각적 및 해설)과 keystep 임베딩 사이의 유사성을 측정해 비디오 클립에 대한 예비 keystep 할당을 생성한다.
노드는 keysteps이고 directed edges는 데이터에서 학습된 확률적 전이를 인코드하는 T = (V,E,w)인 비디오 마이닝된 작업 그래프를 구성한다.
새 비디오에서 자신감(confidence)을 계산해 keystep 예측을 규제하고 필요 시 T에서 PathSearch(Dijkstra 기반)을 수행해 확신 있는 앵커 사이의 높은 확률 keystep 시퀀스를 추론한다.
HowTo100M, COIN, CrossTask에서 다운스트림 작업을 위한 향상된 비디오 표현을 학습하기 위해 keystep 라벨을 의사라벨에 통합한다.

실험 결과

연구 질문

RQ1무라 라벨이 없는 how-to 비디오에서 채굴한 확률 기반의 데이터 주도 작업 그래프가 다양한 작업 간 keystep 의존성을 효과적으로 인코딩할 수 있는가?
RQ2:
RQ3비디오 기반으로 채굴된 작업 그래프를 선행지식으로 사용하는 것이 텍스트-또는 비디오 기반 기준선과 비교했을 때 제로샷 keystep 로컬라이제이션을 향상시키는가?
RQ4학습된 작업 그래프 가이드 표현 학습이 표준 벤치마크에서 작업 분류, keystep 예측, keystep 인식과 같은 다운스트림 작업을 향상시키는가?

주요 결과

제로샷 keystep 인식이 COIN과 CrossTask에서 텍스트 전용, 비디오 전용, 비디오-텍스트 모달리티를 넘어 강력한 기준선 대비 개선되며, 작업 그래프 사전 정보를 사용할 때 특히 큰 이점이 나타난다.
CrossTask에서 작업 수준의 keystep 인식이 기존 방법을 크게 앞지르며, 예를 들어 기준선의 24–25% 대비 30.5%의 정확도를 달성한다(논문의 표 2 참조).
그래프 정보를 활용한 접근법으로 keystep 로컬라이제이션 및 IoU 지표가 향상되어 Distant Supervision, VideoCLIP, Drop-DTW와 같은 기준선에 비해 예측된 keystep의 정합도가 더 좋아진다.
그래프 보정 의사 라벨을 사용한 HowTo100M에서의 프리트레이닝이 작업 분류 및 keystep 예측 정확도를 향상시키며 MIL-NCE, VideoCLIP, TSN 등의 기준선을 다수 설정에서 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.