QUICK REVIEW

[논문 리뷰] Devil in the Details: Towards Accurate Single and Multiple Human Parsing

Tao Ruan, Ting Liu|arXiv (Cornell University)|2018. 09. 17.

Multimodal Machine Learning Applications참고 문헌 35인용 수 67

한 줄 요약

이 논문은 사람 해석의 핵심 특성인 특징 해상도, 글로벌 컨텍스트, 모서리 디테일을 분석하고, 단일 및 다중 사람 해석 벤치마크에서 최첨단 결과를 달성하는 간단한 엔드-투-엔드 프레임워크인 CE2P를 제안합니다. LIP, CIHP, 및 MHP v2.0를 포함합니다.

ABSTRACT

Human parsing has received considerable interest due to its wide application potentials. Nevertheless, it is still unclear how to develop an accurate human parsing system in an efficient and elegant way. In this paper, we identify several useful properties, including feature resolution, global context information and edge details, and perform rigorous analyses to reveal how to leverage them to benefit the human parsing task. The advantages of these useful properties finally result in a simple yet effective Context Embedding with Edge Perceiving (CE2P) framework for single human parsing. Our CE2P is end-to-end trainable and can be easily adopted for conducting multiple human parsing. Benefiting the superiority of CE2P, we achieved the 1st places on all three human parsing benchmarks. Without any bells and whistles, we achieved 56.50\% (mIoU), 45.31\% (mean $AP^r$) and 33.34\% ($AP^p_{0.5}$) in LIP, CIHP and MHP v2.0, which outperform the state-of-the-arts more than 2.06\%, 3.81\% and 1.87\%, respectively. We hope our CE2P will serve as a solid baseline and help ease future research in single/multiple human parsing. Code has been made available at \url{https://github.com/liutinglt/CE2P}.

연구 동기 및 목표

Fine-grained 사람 해석 성능에 영향을 주는 요인 식별(특징 해상도, 글로벌 컨텍스트, 모서리 디테일).
단일 사람 해석에 이러한 속성을 활용하는 간단한 엔드-투-엔드 프레임워크 설계.
효과적인 융합 전략과 인스턴스 인식 정제를 통해 다중 사람 해석으로 접근 확장.
단일/다중 사람 해석 연구를 위한 강력하고 재사용 가능한 벤치마크 및 오픈소스 코드 제공

제안 방법

세 가지 속성(고해상도 임베딩, 글로벌 컨텍스트 임베딩, 에지 인지)의 인간 해석에서의 mIoU 영향 분석.
CE2P 도입, 구성: (i) 세부 재현을 위한 고해상도 임베딩 모듈, (ii) 피라미드 풀링을 이용한 글로벌 컨텍스트 임베딩 모듈, (iii) 다중 스케일 의미 에지 가지를 갖는 에지 인지 모듈.
백본으로 ResNet-101을 사용하고, 파싱 및 에지 감독에 대한 크로스 엔트로피 손실과 에지 파싱 공동 손실을 포함하여 CE2P를 엔드-투-엔드로 학습.
M-CE2P를 통해 글로벌 파싱과 Mask R-CNN으로 생성된 로컬 패치를 결합하고 인스턴스 수준 레이블 개선을 위한 정제 단계를 추가하여 다중 사람 해석에 적용

실험 결과

연구 질문

RQ1고해상도 특징, 글로벌 컨텍스트, 에지 큐(단서)가 함께 작용하면 세밀한 인간 해석이 개선될 수 있는가?
RQ2단일 인간 해석에서 CE2P가 LIP의 최첨단 방법과 비교해 어떻게 수행되는가?
RQ3효과적인 분기 융합과 레이블 정제로 다중 사람 해석으로 확장될 수 있는가?
RQ4M-CE2P에서 글로벌 vs 로컬 분기의 기여가 CIHP 및 MHP v2.0에서 어떤 차이를 만드는가?
RQ5제안된 정제 단계가 인스턴스 수준 해석 정확도에 의미 있는 개선을 가져오는가?

주요 결과

CE2P는 LIP 단일 인간 해석에서 mIoU가 53.10%로 최첨단을 능가하며(또는 53.10%의 플리핑 포함, 테스트 시간 증강으로 0.6% 증가).
단일 모델 CE2P는 Track 1에서 56.50%의 mIoU를 달성; 플리핑 시 60.10%인 것으로 보도. (표 3의 정확한 수치를 사용: 단일 모델의 56.50 mIoU; 텍스트의 플리핑 행에서 mIoU 60.10.)
CE2P는 CIHP(Track 2)에서 평균 APr 50.94 및 APr@0.5 45.31로 기존 방법을 능가; MHP v2.0(Track 5)에서 CE2P는 PCP0.5 41.82 및 평균 APp 42.25를 달성.
다중 해석의 경우 세 가지 분기(B_g, B_l1, B_l2)와 정제를 포함한 M-CE2P가 강력한 기준선보다 최적의 지표(APr0.5, PCP0.5, 평균 APp)를 기록.
에지 및 고해상도 모듈은 실질적인 이점을 제공(대략 mIoU에서 1–2% 상승; 양말, 선글라스와 같은 작은 부품에서 더 큰 이점).
레이블 정제는 Mask R-CNN 마스크로 인한 과소 분할 문제를 해결함으로써 인스턴스 수준 해석 성능을 향상시킵니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.