QUICK REVIEW

[논문 리뷰] VideoGraph: Recognizing Minutes-Long Human Activities in Videos

Noureldien Hussein, Efstratios Gavves|arXiv (Cornell University)|2019. 05. 13.

Human Pose and Action Recognition참고 문헌 59인용 수 46

한 줄 요약

VideoGraph는 학습 가능한 노드 및 그래프 임베딩으로 데이터 기반의 소프트 그래프 표현을 도입하여 분 단위의 인간 활동을 모델링하고 Breakfast, Epic-Kitchens, Charades에서 성능 향상을 달성합니다.

ABSTRACT

Many human activities take minutes to unfold. To represent them, related works opt for statistical pooling, which neglects the temporal structure. Others opt for convolutional methods, as CNN and Non-Local. While successful in learning temporal concepts, they are short of modeling minutes-long temporal dependencies. We propose VideoGraph, a method to achieve the best of two worlds: represent minutes-long human activities and learn their underlying temporal structure. VideoGraph learns a graph-based representation for human activities. The graph, its nodes and edges are learned entirely from video datasets, making VideoGraph applicable to problems without node-level annotation. The result is improvements over related works on benchmarks: Epic-Kitchen and Breakfast. Besides, we demonstrate that VideoGraph is able to learn the temporal structure of human activities in minutes-long videos.

연구 동기 및 목표

분 단위의 인간 활동이 긴 시간 범위에 걸쳐 전개되는 recognition를 동기 부여한다.
학습 가능한 노드와 확률적 엣지를 갖는 그래프 영감을 받은 표현을 개발하여 시간 구조를 보존한다.
데이터에서 직접 그래프 노드를 학습하여 노드 수준 주석의 필요성을 제거한다.
Breakfast, Epic-Kitchens, Charades에서 강력한 baselines 대비 효과를 증명한다.

제안 방법

노드가 학습된 잠재 개념이고 엣지가 학습된 관계인 소프트 비방향 그래프로 활동을 표현한다.
노드 주의 블록을 사용하여 노드 주석 없이 학습된 노드와의 관계를 통해 세그먼트 특징을 노드 주의 특징으로 생성한다.
시간적 및 노드별 관계를 학습하고 공간 합성곱(Conv)을 적용하여 노드 간 상호 작용을 포착하는 그래프 임베딩 계층을 도입한다.
백본 CNN(I3D 또는 ResNet-152)이 세그먼트 특징을 추출하고 비디오당 64개 세그먼트(8프레임 세그먼트)를 처리하여 그래프 표현을 형성한다.
두 개의 완전 연결 계층과 BatchNorm/ReLU를 갖는 분류기(단일 레이블의 경우 softmax, 다중 레이블의 경우 sigmoid).

실험 결과

연구 질문

RQ1주석이 없는 학습 가능한 데이터 기반 그래프가 분 단위의 활동을 표현할 수 있는가?
RQ2그래프 임베딩 메커니즘이 장거리 활동 인식을 위한 시간적 전이 및 노드 간 관계를 포착하는가?
RQ3동일한 백본으로 Breakfast, Epic-Kitchens, Charades에서 VideoGraph의 성능은 최첨단 baselines와 비교해 어떠한가?
RQ4시간 구조가 인식 성능에 기여하는 정도는 미세한 행동 단서 대비 얼마나 강력한가?

주요 결과

VideoGraph는 동일 백본(I3D)을 사용할 때 Charades, Breakfast, Epic-Kitchens에서 baselines를 능가합니다.
Charades에서 I3D + VideoGraph는 37.8 mAP로 I3D 단독 32.9 mAP보다 높습니다.
Breakfast에서 I3D 백본으로 VideoGraph는 69.45% 정확도와 63.14% mAP를 달성하여 몇 가지 baselines를 능가합니다.
Epic-Kitchens에서 I3D 백본으로 VideoGraph는 55.32% mAP를 달성해 Timeception 및 ActionVLAD 변형과 경쟁합니다.
ResNet-152 백본을 사용한 VideoGraph는 Breakfast 정확도를 69.45%로, Breakfast mAP를 63.14%로 올려주며, I3D without VideoGraph의 58.61%/47.05%보다 높습니다.
잠재 개념 Y의 초기화가 성능에 영향을 주며, Sobol 초기화가 Epic-Kitchens 및 Charades에서 가장 잘 작동하고 Breakfast에서는 무작위 초기화가 최상(표 3)입니다.
시각화는 학습이 진행될수록 학습된 잠재 개념이 서로 다른 거리로 벌어지며 활동에 대한 해석 가능한 노드 관계를 보여줍니다(그림 5–7).
VideoGraph는 일부 baselines보다 시간 구조를 더 효과적으로 강제하며, 시간 순서가 깨지면 성능이 뚜렷하게 저하되는 반면, 순서 무시 방법인 ActionVLAD(Table 4)와는 차이가 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.