Skip to main content
QUICK REVIEW

[논문 리뷰] Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding

Gunnar A. Sigurdsson|arXiv (Cornell University)|2016. 04. 06.
Human Pose and Action Recognition참고 문헌 31인용 수 198
한 줄 요약

이 논문은 엔드투엔드 비디오 생성 및 주석 작성을 위한 Crowdsourcing 접근법인 Hollywood in Homes를 소개하여 가정에서의 일상 활동을 다룬 Charades 데이터셋을 만들고, 9,848개의 가정 내 활동 비디오와 풍부한 주석을 제공하며 행동 인식 및 설명 생성의 기준 벤치마크를 제시한다.

ABSTRACT

Computer vision has a great potential to help our daily lives by searching for lost keys, watering flowers or reminding us to take a pill. To succeed with such tasks, computer vision methods need to be trained from real and diverse examples of our daily dynamic scenes. While most of such scenes are not particularly exciting, they typically do not appear on YouTube, in movies or TV broadcasts. So how do we collect sufficiently many diverse but boring samples representing our lives? We propose a novel Hollywood in Homes approach to collect such data. Instead of shooting videos in the lab, we ensure diversity by distributing and crowdsourcing the whole process of video creation from script writing to video recording and annotation. Following this procedure we collect a new dataset, Charades, with hundreds of people recording videos in their own homes, acting out casual everyday activities. The dataset is composed of 9,848 annotated videos with an average length of 30 seconds, showing activities of 267 people from three continents. Each video is annotated by multiple free-text descriptions, action labels, action intervals and classes of interacted objects. In total, Charades provides 27,847 video descriptions, 66,500 temporally localized intervals for 157 action classes and 41,104 labels for 46 object classes. Using this rich data, we evaluate and provide baseline results for several tasks including action recognition and automatic description generation. We believe that the realism, diversity, and casual nature of this dataset will present unique challenges and new opportunities for computer vision community.

연구 동기 및 목표

  • YouTube/영화 및 연구실 기록 외에 현실적이고 다양한 일상 생활 데이터의 필요성에 대한 동기를 제시한다.
  • 스크립팅, 촬영, 주석화를 포함하는 crowdsourced 데이터 수집 파이프라인을 제안하여 지루한 일상 활동을 포착한다.
  • 풍부한 시간적 액션 및 객체 상호 작용 주석을 포함하는 대규모이고 다양한 데이터셋(Charades)을 생성한다.
  • Charades에서 행동 인식 및 자동 설명 생성에 대한 기준 평가를 제공한다.

제안 방법

  • 장면 기반 프롬프트를 안내하기 위한 40개 객체와 30개 행동 어휘를 활용한 스크립트 생성 crowdsourcing.
  • 가정에서 작업자들이 대본 문장을 약 30초 동안 연기하여 비디오를 촬영하는 crowdsourcing.
  • 157개 액션 클래스의 시간적 위치화와 객체 상호 작용, 그리고 자유 텍스트 설명을 포함한 검증 및 주석화 crowdsourcing.
  • Three-stage AMT 워크플로우: 스크립트 생성, 비디오 촬영, 주석/검증.
  • 훈련 및 평가 분할은 train과 test 간의 작업자 중복을 방지하고 범주 분포를 균형 있게 구성하도록 구성된다.

실험 결과

연구 질문

  • RQ1Crowdsourced, scripted in-home videos가 일상 활동에 대해 현실적이고 다양한 데이터를 제공할 수 있는가?
  • RQ2표준 및 최첨단 방법을 사용한 Charades의 행동 인식 및 자막 생성의 기준 성능은 어떠한가?
  • RQ3객체-액션 상호 작용 및 현장 맥락은 제어된 어휘를 가진 crowdsourced 데이터셋에서 온라인의 제어되지 않은 비디오와 비교해 어떻게 나타나는가?

주요 결과

  • Charades에는 9,848개의 비디오(평균 30.1초)와 157개 액션 클래스에 걸친 66,500개의 시간적으로 위치화된 액션 간격이 포함되어 있다.
  • 데이터셋에는 46개 객체 클래스와 30개 동사의 어휘가 포함되어 있어 emergent action-object interactions를 가능하게 한다.
  • Baseline action recognition using improved trajectories, CNN-based and two-stream methods yield comparatively modest mAP, with IDT performing best at 17.2% mAP and Combined reaching 18.6%.
  • Sentence prediction shows S2VT as the strongest baseline for generating descriptions, with CIDEr scores indicating room for improvement over human descriptions.
  • The data reveals action co-occurrences and context-rich interactions that reflect real-world daily activities, highlighting challenges for fine-grained action recognition and video captioning.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.