QUICK REVIEW

[논문 리뷰] The AVA-Kinetics Localized Human Actions Video Dataset

Ang Li, Meghana Thotakuri|arXiv (Cornell University)|2020. 05. 01.

Human Pose and Action Recognition참고 문헌 10인용 수 84

한 줄 요약

이 논문은 AVA-스타일 로컬라이즈된 행동 주석을 Kinetics-700 비디오의 하위 집합에 제공하는 크로스오버 데이터셋 AVA-Kinetics를 소개하고, Ground-truth 및 탐지된 박스 모두를 사용해 Video Action Transformer Network로 행동 분류를 벤치마크합니다.

ABSTRACT

This paper describes the AVA-Kinetics localized human actions video dataset. The dataset is collected by annotating videos from the Kinetics-700 dataset using the AVA annotation protocol, and extending the original AVA dataset with these new AVA annotated Kinetics clips. The dataset contains over 230k clips annotated with the 80 AVA action classes for each of the humans in key-frames. We describe the annotation process and provide statistics about the new dataset. We also include a baseline evaluation using the Video Action Transformer Network on the AVA-Kinetics dataset, demonstrating improved performance for action classification on the AVA test set. The dataset can be downloaded from https://research.google.com/ava/

연구 동기 및 목표

AVA의 로컬화된 행동 라벨링과 Kinetics의 비디오 다양성을 결합한 데이터셋 생성을 촉진하는 것을 목표로 한다.
AVA-Kinetics의 주석 파이프라인과 통계치를 설명한다.
AVA-Kinetics에서 Video Action Transformer Network를 사용한 행동 분류의 기본 벤치마크를 제공한다.
Kinetics 기반 데이터의 증가가 클래스별 성능과 전체 mAP에 어떤 영향을 미치는지 분석한다.

제안 방법

Kinetics 비디오 클립에서 선택된 프레임에 AVA-스타일 바운딩 박스와 액션을 주석 처리한다.
Faster RCNN을 사용해 사람을 탐지하고, 탐지 신뢰도가 가장 높은 키 프레임을 선택하며, 누락된 박스를 주석하고 키 프레임을 중심으로 2초 길이의 클립을 생성하여 다수의 평가자들이 라벨링하도록 한다.
3명의 평가자 중 최소 2명이 다수의 확인으로 검증한 라벨만 보존한다.
Ground-truth 박스에서, 그리고 테스트 시 탐지 박스에서도 각각 Video Action Transformer Network를 학습시켜 행동 분류 성능을 평가한다.
Normalized Pointwise Mutual Information (NPMI)을 통해 Kinetics와 AVA 클래스 주석 간의 상관관계를 평가하고 클래스별 성능 범주(person-object, person-pose, person-person)을 연구한다.
AVA 대 AVA-Kinetics 학습 데이터의 크기를 바꿔 성능에 미치는 영향을 분석한다.

실험 결과

연구 질문

RQ1Kinetics 비디오에 AVA-스타일 로컬라이제이션과 라벨을 주석하면 행동 인식에 유용하고 더 다양한 학습 신호가 만들어지는가?
RQ2AVA, Kinetics, 또는 이들의 조합으로 학습할 때 AVA 및 AVA-Kinetics 테스트 세트에서의 행동 분류 성능은 어떻게 달라지는가?
RQ3Kinetics 기반 데이터 크기와 AVA 클래스 전반의 mAP 증가 간의 관계는 무엇인가?
RQ4개인-대상, 개인-자세, 개인-대-개인 상호작용 범주별로 클래스별 성능 추세가 어떻게 다른가?
RQ5Ground-truth 박스와 탐지 박스를 사용할 때 행동 분류 성능은 어떻게 달라지는가?

주요 결과

AVA-Kinetics는 AVA와 Kinetics를 결합하여 Kinetics 클립에 AVA-스타일 로컬라이제이션을 제공하고 AVA-스타일 라벨과 함께 더 넓은 시각적 다양성을 얻는다.
Video Action Transformer Network를 사용하여 AVA-Kinetics에서 학습하면 ground-truth 박스로 평가할 때 AVA val mAP가 5.26 포인트 증가한다.
AVA-Kinetics에서의 학습은 일반화와 클래스별 성능을 일반적으로 향상시키며, watch, cut, listen, swim 등 여러 클래스에서 뚜렷한 향상을 보인다.
탐지 박스를 사용할 때 개선은 지속되지만 탐지기의 불완전성으로 인해 더 작고, AVA val에서 여전히 양의 이점을 보인다.
클래스별 분석은 포즈 기반 행동이 더 쉬운 반면 객체-상호작용 행동은 여전히 도전적이며, Kinetics 데이터가 특히 대표성 부족 클래스의 샘플 수를 늘리는 데 도움이 된다.
Figure 8은 대부분의 클래스가 Kinetics 샘플 증가의 이점을 누리는 것을 보여주며, 예외적으로 'enter'는 약간 감소를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.