QUICK REVIEW

[논문 리뷰] Automatic Adaptation of Person Association for Multiview Tracking in Group Activities

Minh Vo, Ersin Yumer|arXiv (Cornell University)|2018. 05. 22.

Video Surveillance and Tracking Methods참고 문헌 45인용 수 4

한 줄 요약

이 논문은 운동 추적, 상호 배제 및 다중 시점 기하학을 사용하여 레이블이 없는 다중 시점 영상 시퀀스에 일반적인 인물 외형 기술자를 적응시키는 자기지도 학습 프레임워크를 제안한다. 이는 복잡한 그룹 활동에서 강력한 인물 연동 및 3D 스켈레톤 추적을 가능하게 한다. 제안된 방법은 WILDTRACK 및 새로운 wildscene 데이터셋에서 기준 방법 대비 최대 18% 높은 연동 정확도와 5–10배 더 안정적인 3D 추적 성능을 달성한다.

ABSTRACT

Reliable markerless motion tracking of people participating a complex group activity from multiple moving cameras is challenging due to frequent occlusions, strong viewpoint and appearance variations, and asynchronous video streams. To solve this problem, reliable association of the same person across distant viewpoints and temporal instances is essential. We present a self-supervised framework to adapt a generic person appearance descriptor to the unlabeled videos by exploiting motion tracking, mutual exclusion constraints, and multi-view geometry. The adapted discriminative descriptor is used a tracking-by-clustering formulation. We validate the effectiveness of our descriptor learning on WILDTRACK [14] and three new complex social scenes captured by multiple cameras with up to 60 people in the wild. We report significant improvement association accuracy (up to 18%) and stable and coherent 3D human skeleton tracking (5 to 10 times) over the baseline. Using the reconstructed 3D skeletons, we cut the input videos into a multi-angle video where the image of a specified person is shown from the best visible front-facing camera. Our algorithm detects inter-human occlusion to determine the camera switching moment while still maintaining the flow of the action well.

연구 동기 및 목표

복잡한 그룹 활동에서 빈번한 가림과 시점 변화가 발생하는 상황에서도 다중 카메라 간 신뢰할 수 있는 인물 연동을 해결하는 것.
최대 60명까지의 인원이 있는 비정형 실생활 환경에서도 강력한 3D 인간 스켈레톤 추적을 가능하게 하는 것.
수동 레이블링 없이도 일반적인 외형 기술자를 레이블이 없는 다중 시점 영상에 적응시키는 자기지도 학습 방법을 개발하는 것.
인간 간 가림을 감지하여 상호 작용의 연속성을 유지하면서도 최적의 시점으로 카메라 전환을 동적으로 수행하는 것.
비동기적이고 이동하는 카메라 설정에서 분류 능력 있는 기술자 적응을 통해 추적의 일관성과 정확도를 향상시키는 것.

제안 방법

다중 카메라 간 초기 인물 트랙토리를 생성하기 위해 운동 추적을 활용한다.
각 시점에서 한 사람의 위치만 허용하는 상호 배제 제약 조건을 적용하여 잘못된 연동을 줄인다.
일致한 3D 재구성과 시점 간 대응 관계의 유효성을 확보하기 위해 다중 시점 기하학을 사용한다.
추적 및 기하 일致성의 지도 신호로 사용하여 일반적인 외형 기술자를 자기지도 학습을 통해 적응시킨다.
적응된 기술자를 사용하여 감지 결과를 군집화하는 추적-클러스터링 설정을 적용하여 일관된 인물 트랙을 형성한다.
인간 간 가림을 감지하여 최적의 전면 시점으로 카메라 전환을 트리거하고, 각 인물에 대해 가장 양호한 시야를 유지한다.

실험 결과

연구 질문

RQ1큰 시점 및 외형 변화가 있는 다중 카메라 환경에서 어떻게 안정적인 인물 연동을 유지할 수 있는가?
RQ2수동 레이블링 없이 일반적인 외형 기술자가 복잡한 실생활 장면에 얼마나 잘 적응할 수 있는가?
RQ3운동 추적과 기하 제약 조건이 다중 시점 추적에서 인물 기술자의 분류 능력을 함께 향상시킬 수 있는가?
RQ4기준 방법 대비 제안된 방법의 인물 연동 정확도와 3D 추적 안정성은 어떻게 평가되는가?
RQ5가림 감지 기반의 동적 카메라 전환은 행동 흐름을 유지하면서도 시야를 향상시킬 수 있는가?

주요 결과

제안된 방법은 WILDTRACK 데이터셋과 새로운 복잡한 사회적 장면에서 기준 방법 대비 최대 18% 높은 인물 연동 정확도를 달성한다.
3D 인간 스켈레톤 추적 안정성이 기준 방법 대비 5~10배 향상되어 시간적 일관성이 향상됨을 입증한다.
자기지도 학습 기반 기술자 적응이 실생활 비제약 환경에서 강한 시점 및 외형 변화를 효과적으로 처리함을 보여준다.
시스템은 인간 간 가림을 성공적으로 감지하고 가장 양호한 가시 시점 카메라로 전환하여 행동의 연속성을 유지한다.
최대 60명의 인원이 포함된 장면으로도 잘 일반화되어 고밀도 그룹 활동에서도 강력함을 입증한다.
적응된 기술자를 사용한 추적-클러스터링 설정은 다중 시점 간 일관되고 타당한 인물 트랙을 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.