QUICK REVIEW

[논문 리뷰] Describing Common Human Visual Actions in Images

Matteo Ruggero Ronchi, Pietro Perona|arXiv (Cornell University)|2015. 06. 07.

Multimodal Machine Learning Applications참고 문헌 15인용 수 23

한 줄 요약

이 논문은 언어 분석을 통해 MS COCO에서 유도된 단일 영상에서 시각적으로 감지 가능한 140개의 인간 행동을 포함하는 대규모 데이터 기반 데이터셋인 COCO-a를 소개한다. VerbNet과 이미지 캡션의 언어 분석을 기반으로 하며, 주체, 대상, 행동, 자세, 감정 및 공간 관계를 철저하고 국소화된 방식으로 애너테이션하여 시각적 장면 이해, 행동 인식 및 이미지 검색 시스템의 강력한 훈련 및 벤치마킹을 가능하게 한다.

ABSTRACT

Which common human actions and interactions are recognizable in monocular still images? Which involve objects and/or other people? How many is a person performing at a time? We address these questions by exploring the actions and interactions that are detectable in the images of the MS COCO dataset. We make two main contributions. First, a list of 140 common `visual actions', obtained by analyzing the largest on-line verb lexicon currently available for English (VerbNet) and human sentences used to describe images in MS COCO. Second, a complete set of annotations for those `visual actions', composed of subject-object and associated verb, which we call COCO-a (a for `actions'). COCO-a is larger than existing action datasets in terms of number of actions and instances of these actions, and is unique because it is data-driven, rather than experimenter-biased. Other unique features are that it is exhaustive, and that all subjects and objects are localized. A statistical analysis of the accuracy of our annotations and of each action, interaction and subject-object combination is provided.

연구 동기 및 목표

실험자 편향 없이 일상 이미지에서 가장 흔하고 시각적으로 구분 가능한 인간 행동을 식별하고 카탈로그화하기 위해.
MS COCO 데이터셋 내 행동, 주체, 대상에 대한 포괄적이고 철저하며 국소화된 애너테이션 세트를 구축하기 위해.
시각적 장면 이해 시스템(예: 시각적 질의 응답 및 이미지 검색 포함)의 훈련 및 평가를 지원하는 벤치마크 데이터셋을 제공하기 위해.
실제 세계 데이터를 사용하여 장면 이해에서 의미 네트워크 표현의 논의를 경험적으로 기반화하기 위해.
정적 이미지 내 인간 행동과 상호작용의 빈도, 공간 관계 및 맥락적 단서를 탐색하기 위해.

제안 방법

가장 큰 영어 동사 어휘집(VerbNet)과 MS COCO의 인간 애너테이션 캡션을 분석하여 140개의 일반적이고 시각적으로 감지 가능한 행동을 식별함으로써 Visual VerbNet(VVN)을 구축하였다.
MS COCO 이미지 10,000장을 주체-대상-행동 삼중항을 포함한 포스트, 감정, 공간 관계(거리, 상대적 위치)를 포함해 철저히 애너테이션하였다.
사전 정의된 행동 목록이 아닌 실제 이미지 기반 기술서에서 유도된 행동을 통해 데이터 기반의 편향 없는 애너테이션을 확보하였다.
원본 MS COCO 데이터셋의 픽셀 정밀도 세그먼테이션 마스크를 사용하여 모든 주체와 대상을 국소화하였다.
통계 분석을 통해 행동, 상호작용 및 주체-대상 쌍 간의 정확도와 빈도 분포를 평가하였다.
예를 들어 '울다' + '싱크대'와 같은 희귀 조합의 복잡한 질의를 가능하게 하여 데이터셋의 표현력과 검색 및 학습에 대한 유용성을 테스트하였다.

실험 결과

연구 질문

RQ1단일 영상에서 시각적으로 감지 가능한 일반적인 인간 행동과 상호작용는 무엇인가?
RQ2실제 장면에서 행동, 자세 및 공간 관계의 빈도와 분포는 어떻게 되는가?
RQ3사람, 물체 및 상호작용을 포함하는 시각적 행동은 공간적 거리, 자세 및 감정적 맥락 측면에서 어떻게 다를까?
RQ4이미지 캡션과 동사 어휘집의 언어 분석이 포괄적이고 편향 없는 시각적 행동 세트를 식별하는 데 얼마나 기여할 수 있는가?
RQ5완전히 애너테이션된 데이터 기반 데이터셋이 시각적 장면 이해 시스템의 성능 향상과 일반화 능력을 향상시킬 수 있는가?

주요 결과

언어적 분석과 데이터 기반 분석을 통해 140개의 일반적이고 시각적으로 식별 가능한 인간 행동을 식별하여 Visual VerbNet(VVN) 분류 체계를 구축하였다.
COCO-a 데이터셋은 10,000장의 이미지로 구성되어 있으며, 주체, 대상, 행동, 자세, 감정 및 공간 관계를 철저히 애너테이션하여 기존의 행동 데이터셋보다 더 크고 포괄적이다.
사람들은 일반적으로 '같은 그룹에 있기', '동행하기', 또는 '포즈 취하기'와 같은 행동을 통해 다른 사람과 상호작용하며, 보통 가까운 거리에서 앞서거나 옆으로 붙어 있는 위치에서 이루어진다.
'만지기' 행동은 다른 사람, 착용 가능한 물건 또는 주체 앞이나 아래에 있는 물체와 자주 수행되며, 높은 공간적 가까움과 완전 또는 경미한 접촉을 특징으로 한다.
'싸우기' + '위에' 또는 '울기' + '싱크대'와 같은 희귀 조합도 성공적으로 검색되었으며, 이는 데이터셋이 복잡한 이미지 검색 및 제로샷 학습에 있어 실용성을 입증한다.
통계 분석을 통해 높은 애너테이션 정확도를 확인했으며, '서기', '앉기', '걷기'와 같은 행동이 가장 빈도가 높은 반면, '무릎 꿇기'나 '굽히기'와 같은 희귀 행동은 부족하게 표현되어 데이터 증강이 필요할 수 있음을 밝혔다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.