QUICK REVIEW

[논문 리뷰] ModaNet: A Large-Scale Street Fashion Dataset with Polygon Annotations

Shuai Zheng, Fan Yang|arXiv (Cornell University)|2018. 07. 03.

Generative Adversarial Networks and Image Synthesis참고 문헌 45인용 수 28

한 줄 요약

ModaNet는 13개의 패션 카테고리에 대해 픽셀 수준의 세그먼테이션 마스크, 다각형(annotation), 경계 박스를 포함한 55,176장의 완전히 애너테이션된 이미지를 포함한 대규모 스트리트 패션 데이터셋을 소개한다. 이 데이터셋은 패션 이해 분야에서 딥 러닝 모델의 고급 평가를 가능하게 하며, 객체 검출, 세그먼테이션, 다각형 예측에서 최신 기술 성능을 달성한다. 다각형 예측의 기준 성능은 Polygon-RNN++를 사용하여 평균 IoU가 30.7%를 기록한다.

ABSTRACT

Understanding clothes from a single image has strong commercial and cultural impacts on modern societies. However, this task remains a challenging computer vision problem due to wide variations in the appearance, style, brand and layering of clothing items. We present a new database called ModaNet, a large-scale collection of images based on Paperdoll dataset. Our dataset provides 55,176 street images, fully annotated with polygons on top of the 1 million weakly annotated street images in Paperdoll. ModaNet aims to provide a technical benchmark to fairly evaluate the progress of applying the latest computer vision techniques that rely on large data for fashion understanding. The rich annotation of the dataset allows to measure the performance of state-of-the-art algorithms for object detection, semantic segmentation and polygon prediction on street fashion images in detail. The polygon-based annotation dataset has been released https://github.com/eBay/modanet, we also host the leaderboard at EvalAI: https://evalai.cloudcv.org/featured-challenges/136/overview.

연구 동기 및 목표

실생활 환경에서 다양한 자세와 복잡한 외관을 가진 세밀한 패션 이해를 위한 대규모, 세밀한 데이터셋의 부족을 해결하기 위해.
패션 아이템의 객체 검출, 세그먼테이션, 다각형 예측 분야에서 최신 컴퓨터 비전 모델의 공정한 평가를 가능하게 하기 위해.
100만 장의 약한 레이블이 부여된 Paperdoll 데이터셋에서 유래한 100만 장의 이미지 위에 픽셀 수준의 마스크, 다각형, 경계 박스를 포함한 풍부한 애너테이션을 제공하기 위해.
가상 피팅, 개인화된 추천, 시각적 검색과 같은 실용적 응용을 지원하기 위해 패션 아이템의 정확한 국소화를 가능하게 하기 위해.
경계 인식 세그먼테이션과 속성 예측을 포함한 향후 연구를 위한 벤치마크를 설정하기 위해.

제안 방법

100만 장의 약한 애너테이션된 이미지가 포함된 Paperdoll 데이터셋에서 고품질의 스트리트 패션 이미지 55,176장을 선별하여, 다양한 인간 자세와 의류 스타일을 확보한다.
각 이미지는 13개의 패션 카테고리에 대해 픽셀 수준의 세그먼테이션 마스크와 정밀한 다각형 좌표를 애너테이션한다. 이는 세부적인 객체 경계를 포괄한다.
객체 검출 작업을 지원하기 위해 다각형 애너테이션에서 경계 박스를 유도한다.
다각형 예측 성능 평가를 위해 사전 학습된 Polygon-RNN++ 모델을 ModaNet에서 미세 조정하고, IoU, 정밀도, 재현율, F1 점수를 사용하여 성능을 평가한다.
공개된 색상 이름 매핑 도구를 사용하여 세그먼트 영역의 평균 RGB 값을 세밀한 색상 이름으로 매핑하여 색상 속성 예측 프로토타입을 개발한다.
다양한 최신 딥 러닝 모델들(예: DeepLabV3+, FCN-8, ResNet-50 인코더)을 검출, 세그먼테이션, 다각형 예측 작업에서 평가한다.

실험 결과

연구 질문

RQ1세밀한 애너테이션을 가진 대규모, 다양한 스트리트 패션 데이터셋에서 최신 딥 뉴럴 네트워크의 객체 검출 및 세그먼테이션 성능는 어떻게 변할까?
RQ2ModaNet에서 훈련된 다각형 예측 모델은 패션 아이템의 고급 경계 국소화를 달성할 수 있으며, 기준 성능는 어떠한가?
RQ3ModaNet의 세그먼테이션 마스크는 패션 아이템의 세밀한 색상 속성을 예측하는 데 얼마나 유용한가?
RQ4ModaNet에 포함된 다양한 자세와 복잡한 가림을 고려할 때, 더 작은, 다각도가 적은 데이터셋에 비해 모델의 일반화 능력은 어떻게 영향을 받을까?
RQ5풍부한 애너테이션(다각형, 마스크, 경계 박스)은 실세계 응용에서 패션 이해 모델의 성능에 어떤 영향을 미치는가?

주요 결과

ModaNet 데이터셋은 픽셀 수준 애너테이션을 가진 이전 데이터셋보다 10배 더 큰 55,176장의 완전히 애너테이션된 스트리트 패션 이미지를 포함한다.
Polygon-RNN++ 기준 모델은 다각형 예측에서 평균 IoU 30.7%, 평균 정밀도 83.4%, 평균 재현율 32.5%, 평균 F1 점수 45.0%를 기록하여 향후 연구의 기준 성능를 설정한다.
DeepLabV3+는 모든 카테고리에서 평균 IoU 81%를 기록하여 FCN-8 및 기타 모델보다 세그먼테이션 성능에서 뛰어나다.
실패 사례 분석 결과, 모델은 작은 또는 부분적으로 가려진 아이템(예: 넥타이)을 자주 놓치거나 유사한 카테고리(예: 부츠 vs. 신발)를 혼동하는 경향을 보여, 세밀한 국소화의 과제를 드러낸다.
색상 속성 예측 프로토타입은 세그먼트 영역을 기반으로 기술적인 색상 이름으로 성공적으로 매핑하였으며, 세그먼테이션 마스크가 후속 응용에서의 유용성을 입증한다.
이 데이터셋은 스케일, 애너테이션의 풍부함, 실세계의 다양성 덕분에 패션 이해 작업에서 상당한 성능 향상을 이끌어내며, 이전 데이터셋보다 세밀함과 범위에서 모두 뛰어나다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.