QUICK REVIEW

[논문 리뷰] Instance-level Human Parsing via Part Grouping Network

Ke Gong, Xiaodan Liang|arXiv (Cornell University)|2018. 08. 01.

Advanced Neural Network Applications참고 문헌 39인용 수 25

한 줄 요약

이 논문은 다수의 사람을 단일 패assing으로 처리할 수 있도록 종합적인 엔드 투 엔드 프레임워크에서 의미적 파트 세그먼테이션과 인스턴스 인식 에지 검출을 공동 최적화하는 검출기 없는 파트 그룹핑 네트워크(PGN)를 제안한다. 이 방법은 PASCAL-Person-Part 및 38,280장의 다중인간 이미지를 포함하는 새로운 대규모 CIHP 벤치마크에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Instance-level human parsing towards real-world human analysis scenarios is still under-explored due to the absence of sufficient data resources and technical difficulty in parsing multiple instances in a single pass. Several related works all follow the "parsing-by-detection" pipeline that heavily relies on separately trained detection models to localize instances and then performs human parsing for each instance sequentially. Nonetheless, two discrepant optimization targets of detection and parsing lead to suboptimal representation learning and error accumulation for final results. In this work, we make the first attempt to explore a detection-free Part Grouping Network (PGN) for efficiently parsing multiple people in an image in a single pass. Our PGN reformulates instance-level human parsing as two twinned sub-tasks that can be jointly learned and mutually refined via a unified network: 1) semantic part segmentation for assigning each pixel as a human part (e.g., face, arms); 2) instance-aware edge detection to group semantic parts into distinct person instances. Thus the shared intermediate representation would be endowed with capabilities in both characterizing fine-grained parts and inferring instance belongings of each part. Finally, a simple instance partition process is employed to get final results during inference. We conducted experiments on PASCAL-Person-Part dataset and our PGN outperforms all state-of-the-art methods. Furthermore, we show its superiority on a newly collected multi-person parsing dataset (CIHP) including 38,280 diverse images, which is the largest dataset so far and can facilitate more advanced human analysis. The CIHP benchmark and our source code are available at http://sysu-hcp.net/lip/.

연구 동기 및 목표

실제 환경에서 다수의 다양한 인스턴스를 포함하는 상황에서 인스턴스 수준의 인간 파싱 문제를 해결하기 위해.
검출 및 파싱 간 오류 누적과 최적화의 일관성 부족으로 인해 제한되는 기존의 '검출을 통한 파싱' 파이프라인의 문제점을 해결하기 위해.
의미적 파트 세그먼테이션과 인스턴스 인식 에지 검출을 공동으로 학습할 수 있는 통합된 엔드 투 엔드 프레임워크를 개발하여 더 나은 표현 학습을 가능하게 하기 위해.
다양하고 대규모의 이미지 38,280장으로 구성된 새로운 대규모 다각도 벤치마크(CIHP)를 제안하여 고도화된 인간 분석 연구를 지원하기 위해.

제안 방법

PGN은 의미적 파트 세그먼테이션과 인스턴스 인식 에지 검출이라는 두 가지 유사한 하위 과제로 인스턴스 수준의 인간 파싱을 설정하며, 통합된 네트워크에서 공동으로 훈련한다.
공통의 백본 네트워크가 파트 수준과 인스턴스 수준의 그룹화 과제를 뒷받침하는 중간 특징을 학습한다.
두 개의 병렬 브랜치가 각각 의미적 파트 레이블과 인스턴스 경계(에지)를 예측하며, 공유된 문맥적 표현을 사용한다.
보완적인 문맥 정보를 활용하여 세그먼테이션과 에지 검출 간 상호 강화를 가능하게 하는 개선 브랜치를 도입한다.
예측된 인스턴스 인식 에지에 기반해 의미적 파트를 그룹화하는 효율적인 인스턴스 분할 과정을 통해 최종 인스턴스 수준의 결과를 생성한다.
파트 세그먼테이션과 에지 검출 목표를 통합한 손실 함수를 사용해 엔드 투 엔드로 훈련된다.

실험 결과

연구 질문

RQ1검출기 없는 통합 네트워크가 의미적 파트 세그먼테이션과 인스턴스 인식 에지 검출을 공동 최적화하여 인스턴스 수준의 인간 파싱 성능을 향상시킬 수 있는가?
RQ2분리된 검출 및 파싱 파이프라인과 비교해, 세그먼테이션과 에지 검출의 공동 최적화가 오류 누적 문제를 어떻게 줄이는가?
RQ3세그먼테이션과 에지 검출 간의 상호 개선이 도전적인 다중인간 실생활 상황에서 성능 향상에 얼마나 기여하는가?
RQ4제안된 그룹화 알고리즘이 파트 및 에지 예측에서 정확한 인스턴스 수준 결과를 생성하는 데 얼마나 효과적인가?

주요 결과

PGN은 PASCAL-Person-Part 데이터셋에서 최신 기술 수준의 성능을 달성하였으며, 인스턴스 수준의 인간 파싱에서 평균 IoU 55.8%와 OIS 46.0%를 기록하였다.
38,280장의 다양한 이미지를 포함하는 새로 도입된 CIHP 벤치마크에서 PGN은 평균 IoU 55.8%와 OIS 46.0%를 기록하여 이전의 모든 방법들을 능가하였다.
절단 실험 결과, 개선 브랜치가 없는 모델 대비 평균 IoU에서 2.3% 향상됨을 확인하여 성능 향상 효과를 입증하였다.
그룹화 알고리즘이 결과에 크게 기여함을 보여주었으며, PGN(w/o grouping)의 경우 평균 IoU가 32.9%로 떨어져 최종 인스턴스 할당에 있어 핵심적인 역할을 한다는 점을 입증하였다.
에지 검출 브랜치만으로도 ODS 45.5%를 기록하여 세그먼테이션 없이도 강력한 성능을 보였으며, 에지 예측 과제의 강건성을 입증하였다.
공동 훈련을 통한 통합 네트워크가 단일 과제 모델보다 성능이 뛰어나, 공유된 표현 학습이 세그먼테이션과 에지 검출 양쪽 모두의 성능 향상에 기여한다는 점을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.