Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-Label Image Recognition with Graph Convolutional Networks

Zhao-Min Chen, Xiu-Shen Wei|arXiv (Cornell University)|2019. 04. 07.
Text and Document Classification Technologies참고 문헌 35인용 수 62
한 줄 요약

논문은 라벨 임베딩을 상호 의존적 객체 분류기에 매핑하고 이를 이미지 특징에 적용하여 엔드-투- 엔드 다중 라벨 인식을 수행하며, 전파와 일반화를 개선하기 위해 재가중된 라벨 상관 행렬을 사용하는 ML-GCN을 도입한다.

ABSTRACT

The task of multi-label image recognition is to predict a set of object labels that present in an image. As objects normally co-occur in an image, it is desirable to model the label dependencies to improve the recognition performance. To capture and explore such important dependencies, we propose a multi-label classification model based on Graph Convolutional Network (GCN). The model builds a directed graph over the object labels, where each node (label) is represented by word embeddings of a label, and GCN is learned to map this label graph into a set of inter-dependent object classifiers. These classifiers are applied to the image descriptors extracted by another sub-net, enabling the whole network to be end-to-end trainable. Furthermore, we propose a novel re-weighted scheme to create an effective label correlation matrix to guide information propagation among the nodes in GCN. Experiments on two multi-label image recognition datasets show that our approach obviously outperforms other existing state-of-the-art methods. In addition, visualization analyses reveal that the classifiers learned by our model maintain meaningful semantic topology.

연구 동기 및 목표

  • 다중 라벨 이미지 인식 성능을 개선하기 위해 라벨 의존성을 모델링하고 활용한다.
  • 그래프 컨볼루션 네트워크를 통해 라벨 임베딩에서 상호 의존적 분류기를 학습한다.
  • 정보 전달을 가이드하고 과도한 평활화를 완화하기 위해 데이터 기반의 재가중 상관 행렬을 도입한다.
  • 표준 벤치마크에서 엔드-투-엔드 학습 가능성과 우수한 성능을 보여준다.

제안 방법

  • 각 라벨을 단어 임베딩으로 표현하고 방향성 라벨 그래프를 구축한다.
  • 스택된 GCN을 사용해 라벨 임베딩을 상호 의존적 분류기 W의 집합으로 매핑한다.
  • CNN으로부터 추출된 이미지 특징 x에 분류기 W를 적용해 예측 ŷ = W x를 얻는다.
  • 라벨 공동발생에서 데이터 기반의 라벨 상관 행렬 A를 구성하고 임계값 τ로 이진화하여 A를 형성한다.
  • 노드 자기 가중치와 이웃 영향 사이의 균형을 맞추고 과도한 평활화를 줄이는 재가중 방식 A'를 도입한다.
  • 표준 다중 라벨 분류 손실로 엔드-투-엔드 학습한다.

실험 결과

연구 질문

  • RQ1라벨 의존성을 명시적으로 모델링하여 다중 라벨 인식 성능을 어떻게 개선할 수 있는가?
  • RQ2라벨 임베딩이 공동발생 패턴을 활용하는 상호 의존적 분류기로 변환될 수 있는가?
  • RQ3재가중 상관 행렬이 GCN 기반 라벨 모델링의 과적합과 평활화를 줄일 수 있는가?
  • RQ4학습된 분류기가 라벨 간의 의미적 토폴로지를 나타내는가?

주요 결과

  • 재가중 상관 행렬을 사용하는 ML-GCN은 MS-COCO 및 VOC 2007에서 최첨단 방법보다 일관되게 우수한 성능을 보인다.
  • 이진 상관 관계를 사용하는 경우 재가중 방식에 비해 과도한 평활화로 성능이 악화된다.
  • 재가중 방식은 mAP, CF1, OF1와 같은 주요 지표를 데이터셋 전반에 걸쳐 향상시킨다.
  • 단어 임베딩은 도움이 되지만 성능 향상의 주된 원인은 GCN 기반 매핑과 상관 모델링에 있다.
  • 분류기 시각화는 의미 있는 의미적 토폴로지를 보여주며 관련 라벨이 분류기 공간에서 클러스터를 형성한다.
  • ML-GCN을 통한 학습 이미지 표현은 순수 ResNet 기반 대비 이미지 검색 품질을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.