[논문 리뷰] Understanding Humans in Crowded Scenes: Deep Nested Adversarial Learning and A New Benchmark for Multi-Human Parsing
이 논문은 25,403장의 이미지와 58개의 미세한 범주를 가진 대규모 Multi-Human Parsing (MHP v2.0) 데이터세트와 엔드-투-엔드 다중 인체 파싱을 위한 새로운 Deep Nested Adversarial Network (NAN)를 제시한다. NAN은 의미적 주목도, 인스턴스 무관 파싱, 인스턴스 인식 클러스터링을 위해 GAN 유사 세 가지 서브 네트를 구성하며, 중첩 대립 프레임워크에서 학습된다.
Despite the noticeable progress in perceptual tasks like detection, instance segmentation and human parsing, computers still perform unsatisfactorily on visually understanding humans in crowded scenes, such as group behavior analysis, person re-identification and autonomous driving, etc. To this end, models need to comprehensively perceive the semantic information and the differences between instances in a multi-human image, which is recently defined as the multi-human parsing task. In this paper, we present a new large-scale database "Multi-Human Parsing (MHP)" for algorithm development and evaluation, and advances the state-of-the-art in understanding humans in crowded scenes. MHP contains 25,403 elaborately annotated images with 58 fine-grained semantic category labels, involving 2-26 persons per image and captured in real-world scenes from various viewpoints, poses, occlusion, interactions and background. We further propose a novel deep Nested Adversarial Network (NAN) model for multi-human parsing. NAN consists of three Generative Adversarial Network (GAN)-like sub-nets, respectively performing semantic saliency prediction, instance-agnostic parsing and instance-aware clustering. These sub-nets form a nested structure and are carefully designed to learn jointly in an end-to-end way. NAN consistently outperforms existing state-of-the-art solutions on our MHP and several other datasets, and serves as a strong baseline to drive the future research for multi-human parsing.
연구 동기 및 목표
- 군중 현장의 탐지 및 인스턴스 분할을 넘어서는 인간의 전체적 이해를 목표로 한다.
- 다양한 미세한 의미 범주를 갖춘 다인 파싱을 위한 대규모, 풍부하게 주석된 벤치마크를 제공한다.
- 중첩 대립 설정에서 파싱과 인스턴스 구분을 동시에 학습하는 통합 엔드-투-엔드 모델을 개발한다.
- 실세계 응용에 적합한 단일 패스 다인 파싱을 가능하게 한다.
제안 방법
- body parts, clothes, and accessories에 대한 25,403장의 이미지와 58개의 의미 범주를 가진 대규모 데이터세트로 MHP v2.0을 제안한다.
- 의미적 주목도 예측, 인스턴스-무관 파싱, 인스턴스-인식 클러스터링을 위한 세 갈래 GAN 유사 프레임워크인 NAN을 도입한다.
- 각 서브 네트는 대립 손실과 작업 특화 손실로 학습되며, 엔드-투-엔드 역전파를 가능하게 하는 중첩되고 상호 강화되는 구조를 갖는다.
- 주석의 우선 정보로 의미적 주목도를 파싱 보조로 사용하고, 인스턴스-무관 파싱과 결합한 뒤 지역 제안을 필요로 하지 않는 인스턴스-인식 클러스터링을 수행한다.
- 네트워크 초기화, 손실 항목, 엔드-투-엔드 최적화 목표 등 학습 세부 정보를 제공한다.
- MHP v2.0 및 기타 데이터세트에 대한 평가를 보고하여 NAN이 최첨단 방법들보다 우수함을 보여준다.
실험 결과
연구 질문
- RQ1중첩 대립 학습 프레이워크가 붐비는 현장에서의 전체적 다인 파싱을 향상시킬 수 있는가?
- RQ2대규모의 미세한 데이터셋(MHP v2.0)이 가려짐과 상호작용이 있는 상황에서 인스턴스 수준의 신체 부위 및 패션 아이템 파싱 학습을 더 잘 지원하는가?
- RQ3해로운 전처리/후처리 없이 단일 순방향 패스에서 EN NAN이 정확한 파싱과 인스턴스 구분을 제공할 수 있는가?
- RQ4의미적 주목도 프라이어와 인스턴스-무관 파싱을 도입하는 것이 인스턴스-인식 클러스터링 성능에 어떤 영향을 미치는가?
주요 결과
- NAN은 MHP v2.0 및 다른 벤치마크에서 다인 파싱에 대해 최첨단 방법보다 우수한 성능을 달성한다.
- 지역 제안 비용이 높은 방법을 피하면서 단일 패스 다인 파싱과 경쟁력 있는 속도를 가능하게 한다.
- 중첩 대립 구조를 통한 여러 손실의 공동 최적화를 통해 엔드-투-엔드 학습이 효과적으로 이뤄진다.
- MHP v2.0 데이터세트는 58개의 카테고리를 포함한 광범위한 주석과 현실 세계의 다양성(시점, 가리기, 상호 작용)을 제공한다.
- 실험은 MHP v2.0, MHP v1.0, PASCAL-Person-Part, Buffy에서 NAN의 다재다능함을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.