Skip to main content
QUICK REVIEW

[논문 리뷰] Automatic Spatially-aware Fashion Concept Discovery

Xintong Han, Zuxuan Wu|arXiv (Cornell University)|2017. 08. 03.
Advanced Image and Video Retrieval Techniques참고 문헌 26인용 수 36
한 줄 요약

이 논문은 사전에 수동으로 레이블링된 이미지-텍스트 쌍 없이, 미세조정된 CNN의 공간적 활성화 맵과 의미적 단어 임베딩을 융합하여 자동으로 공간 인식이 가능한 패션 개념을 발견하는 방법을 제안한다. 이는 소매 유형, 드레스 길이 등 의미 있는 개념(예: 소매 유형, 드레스 길이)으로 속성을 군집화한다. 이 방법은 속성 피드백 기반 검색 성능을 향상시키며, 개념별로 특화된 부분공간 임베딩을 학습하여 구조화된 제품 브라우징을 가능하게 하여 Fashion200K 데이터셋에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

This paper proposes an automatic spatially-aware concept discovery approach using weakly labeled image-text data from shopping websites. We first fine-tune GoogleNet by jointly modeling clothing images and their corresponding descriptions in a visual-semantic embedding space. Then, for each attribute (word), we generate its spatially-aware representation by combining its semantic word vector representation with its spatial representation derived from the convolutional maps of the fine-tuned network. The resulting spatially-aware representations are further used to cluster attributes into multiple groups to form spatially-aware concepts (e.g., the neckline concept might consist of attributes like v-neck, round-neck, etc). Finally, we decompose the visual-semantic embedding space into multiple concept-specific subspaces, which facilitates structured browsing and attribute-feedback product retrieval by exploiting multimodal linguistic regularities. We conducted extensive experiments on our newly collected Fashion200K dataset, and results on clustering quality evaluation and attribute-feedback product retrieval task demonstrate the effectiveness of our automatically discovered spatially-aware concepts.

연구 동기 및 목표

  • 온라인 쇼핑 환경에서 저수준의 시각적 특징과 고수준의 패션 속성 사이의 의미적 격차를 해소하기 위해.
  • 수동 레이블링 없이 약한 레이블링된 이미지-텍스트 쌍에서 공간 인식이 가능한 패션 개념을 자동으로 발견하기 위해.
  • 학습된 임베딩 공간 내의 다중모달 언어 규칙성을 활용하여 속성 피드백 기반 제품 검색 성능을 향상시키기 위해.
  • 개념별로 특화된 부분공간 임베딩을 사용하여 패션 제품의 구조화된 브라우징을 가능하게 하기 위해.

제안 방법

  • 의류 이미지와 제품 설명을 사용하여, GoogleNet을 엔드 투 엔드로 미세조정하여 공동 시각-의미 임베딩 공간을 학습하기 위해.
  • 전역 평균 풀링(GAP) 특징에서 속성 활성화 맵(AAMs)을 생성하여 속성이 가장 활성화되는 공간적 위치를 포착하기 위해.
  • Word2Vec에서 유도된 의미적 단어 벡터와 공간적 AAMs를 융합하여 공간 인식이 가능한 속성 표현을 형성하기 위해.
  • k-means 또는 유사한 군집화 기법을 사용하여 공간 인식이 가능한 속성 표현을 개념 그룹(예: 목선, 소매 유형)으로 군집화하기 위해.
  • 개별 개념 기반으로 이미지를 임bedding하는 개념별로 특화된 부분공간 네트워크를 훈련시켜 구조화된 탐색을 가능하게 하기 위해.
  • 시각-의미 공간 내의 다중모달 언어 규칙성을 활용하여 검색 중에 속성을 암묵적으로 제거하거나 보정하기 위해.

실험 결과

연구 질문

  • RQ1공간 인식이 가능한 속성 표현은 패션 속성을 의미 있는 개념으로 군집화하는 데 개선 효과를 보일 수 있는가?
  • RQ2의미 정보와 공간 정보를 융합하면, 단지 의미 정보나 시각 정보만을 사용할 때보다 속성 피드백 기반 제품 검색 성능이 어떻게 향상되는가?
  • RQ3개념별로 특화된 부분공간 임베딩은 패션 제품의 효과적인 구조화된 브라우징을 가능하게 하는가?
  • RQ4제안된 방법은 공간적 단서가 다양하게 존재하는 다양한 패션 카테고리에 일반화되는가?

주요 결과

  • 제안된 방법은 모든 다섯 가지 패션 카테고리(상의, 드레스, 자켓, 바지, 스커트)에서 가장 높은 검색 정확도를 달성하였으며, 특히 소매 길이나 칼라 형태처럼 강한 공간적 속성을 지닌 카테고리에서 뛰어난 성능을 보였다.
  • 의미 표현과 공간 정보를 함께 사용할 경우, 단지 워드 벡터(Word2vec) 또는 단지 활성화 맵(AAMs)만을 사용하는 것보다 더 뛰어난 성능을 내는 것으로 확인되었다.
  • 개념 발견 기반의 베이스라인 VSE 모델보다도 유의미하게 뛰어난 성능을 보이며, 구조화된 개념 학습의 가치를 입증하였다.
  • 드레스 길이, 색상 등의 개념을 위한 부분공간 임베딩은 유사한 아이템이 함께 군집되는 연속적이고 해석 가능한 시각화를 가능하게 하여 직관적인 브라우징을 가능하게 하였다.
  • 시스템은 자동으로 부정적 속성(예: '소매 없음'은 '긴 소매'를 원하는 경우)을 탐지하여 명시적인 사용자 입력 없이도 검색 정밀도를 향상시켰다.
  • 공간적 단서가 뚜렷하지 않은 바지의 경우 성능 향상이 미미하여, 공간 정보는 속성이 공간적으로 국한된 경우에 가장 유익함을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.