Skip to main content
QUICK REVIEW

[논문 리뷰] UCF-101: A dataset of 101 human actions classes from videos in the wild

Khurram Soomro, Amir Zamir|arXiv (Cornell University)|2012. 12. 03.
Human Pose and Action Recognition참고 문헌 9인용 수 4,437
한 줄 요약

UCF101은 101개 클래스와 YouTube에서 가져온 13,320개 클립으로 구성된 크고 제약 없는 행동 인식 데이터셋을 도입하고, 가방-오브-워드(Bag-of-Words) 방식의 베이스라인 결과를 제공합니다.

ABSTRACT

We introduce UCF101 which is currently the largest dataset of human actions. It consists of 101 action classes, over 13k clips and 27 hours of video data. The database consists of realistic user uploaded videos containing camera motion and cluttered background. Additionally, we provide baseline action recognition results on this new dataset using standard bag of words approach with overall performance of 44.5%. To the best of our knowledge, UCF101 is currently the most challenging dataset of actions due to its large number of classes, large number of clips and also unconstrained nature of such clips.

연구 동기 및 목표

  • 실제 배경과 카메라 모션을 포함한 크고 다양한 행동 데이터셋의 부재를 해소한다.
  • 웹 비디오에서 캡처된 101개 클래스, 13k+ 클립의 대형 벤치마크 데이터셋을 제공하여 행동 인식 방법을 평가한다.
  • 이 데이터셋에 대한 참조 성능을 설정하기 위해 베이스라인 인식 결과를 제시한다.
  • 재현성 및 벤치마킹을 위한 데이터셋의 속성(그룹 구조, 클립 지속 시간, 해상도, 오디오 가용성)을 특징화한다.

제안 방법

  • 웹 비디오에서 101개 액션 클래스의 데이터셋을 구성하고 각 액션당 25개의 그룹, 그룹당 4–7개의 클립을 포함한다.
  • 51개의 액션에 대해 25 FPS, 해상도 320x240, 오디오가 보존된 DivX-인코딩 AVI 클립을 사용한다.
  • Harris3D 코너를 추출하고 162-차원 HOG/HOF 디스크립터를 계산한다.
  • 100,000개의 STIP 특징에서 k-means로 4000단어 코드북을 구축하고 각 클립을 4000-차원의 히스토그램으로 표현한다.
  • 히스토그램 교차 커널을 사용하는 비선형 다중 클래스 SVM을 사용하여 leave-one-group-out 25-fold 교차 검증으로 학습한다.
  • BoW 베이스라인과 함께 성능을 보고하고 타입별 혼동도을 제시한다.

실험 결과

연구 질문

  • RQ1제한된 현실 세계 비디오에서 견고한 행동 인식을 위한 규모와 다양성은 무엇인가?
  • RQ2카메라 모션과 혼잡한 배경이 있는 대형의 다양한 행동 데이터셋에서 표준적인 가방-오브-워드 표현은 어떤 성능을 보이나?
  • RQ3UCF101의 서로 다른 행동 유형 범주 간의 베이스라인 인식률은 어느 정도인가?
  • RQ4클립의 특성(그룹화, 길이, 배경, 모션)이 인식 성능에 어떤 영향을 미치는가?

주요 결과

  • UCF101은 101개 액션 클래스와 총 약 1600분의 비디오를 포함하는 13,320개의 클립을 포함한다.
  • 4000단어 코드북으로의 베이스라인 BoW 접근 방식은 전체 정확도 44.5%를 달성한다.
  • 스포츠 액션은 특징적인 모션과 덜 혼잡한 배경으로 인해 가장 높은 베이스라인 정확도(~50.54%)를 달성한다.
  • 휴먼-오브젝트 인터랙션 및 보디-모션 전용 카테고리는 베이스라인 정확도가 현저히 낮다(약 37–38%)
  • 데이터셋은 이전 데이터셋보다 크고 도전적이며, 제약 없는 웹 비디오 및 가변 클립 길이를 특징으로 한다.
  • 저자들은 UCF101에서 일관된 평가를 위한 25-폴드 교차 검증 설정을 권장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.