QUICK REVIEW

[논문 리뷰] Multi-Label Image Recognition with Graph Convolutional Networks

Zhao-Min Chen, Xiu-Shen Wei|arXiv (Cornell University)|2019. 04. 07.

Text and Document Classification Technologies참고 문헌 35인용 수 62

한 줄 요약

논문은 라벨 임베딩을 상호 의존적 객체 분류기에 매핑하고 이를 이미지 특징에 적용하여 엔드-투- 엔드 다중 라벨 인식을 수행하며, 전파와 일반화를 개선하기 위해 재가중된 라벨 상관 행렬을 사용하는 ML-GCN을 도입한다.

ABSTRACT

The task of multi-label image recognition is to predict a set of object labels that present in an image. As objects normally co-occur in an image, it is desirable to model the label dependencies to improve the recognition performance. To capture and explore such important dependencies, we propose a multi-label classification model based on Graph Convolutional Network (GCN). The model builds a directed graph over the object labels, where each node (label) is represented by word embeddings of a label, and GCN is learned to map this label graph into a set of inter-dependent object classifiers. These classifiers are applied to the image descriptors extracted by another sub-net, enabling the whole network to be end-to-end trainable. Furthermore, we propose a novel re-weighted scheme to create an effective label correlation matrix to guide information propagation among the nodes in GCN. Experiments on two multi-label image recognition datasets show that our approach obviously outperforms other existing state-of-the-art methods. In addition, visualization analyses reveal that the classifiers learned by our model maintain meaningful semantic topology.

연구 동기 및 목표

다중 라벨 이미지 인식 성능을 개선하기 위해 라벨 의존성을 모델링하고 활용한다.
그래프 컨볼루션 네트워크를 통해 라벨 임베딩에서 상호 의존적 분류기를 학습한다.
정보 전달을 가이드하고 과도한 평활화를 완화하기 위해 데이터 기반의 재가중 상관 행렬을 도입한다.
표준 벤치마크에서 엔드-투-엔드 학습 가능성과 우수한 성능을 보여준다.

제안 방법

각 라벨을 단어 임베딩으로 표현하고 방향성 라벨 그래프를 구축한다.
스택된 GCN을 사용해 라벨 임베딩을 상호 의존적 분류기 W의 집합으로 매핑한다.
CNN으로부터 추출된 이미지 특징 x에 분류기 W를 적용해 예측 ŷ = W x를 얻는다.
라벨 공동발생에서 데이터 기반의 라벨 상관 행렬 A를 구성하고 임계값 τ로 이진화하여 A를 형성한다.
노드 자기 가중치와 이웃 영향 사이의 균형을 맞추고 과도한 평활화를 줄이는 재가중 방식 A'를 도입한다.
표준 다중 라벨 분류 손실로 엔드-투-엔드 학습한다.

실험 결과

연구 질문

RQ1라벨 의존성을 명시적으로 모델링하여 다중 라벨 인식 성능을 어떻게 개선할 수 있는가?
RQ2라벨 임베딩이 공동발생 패턴을 활용하는 상호 의존적 분류기로 변환될 수 있는가?
RQ3재가중 상관 행렬이 GCN 기반 라벨 모델링의 과적합과 평활화를 줄일 수 있는가?
RQ4학습된 분류기가 라벨 간의 의미적 토폴로지를 나타내는가?

주요 결과

재가중 상관 행렬을 사용하는 ML-GCN은 MS-COCO 및 VOC 2007에서 최첨단 방법보다 일관되게 우수한 성능을 보인다.
이진 상관 관계를 사용하는 경우 재가중 방식에 비해 과도한 평활화로 성능이 악화된다.
재가중 방식은 mAP, CF1, OF1와 같은 주요 지표를 데이터셋 전반에 걸쳐 향상시킨다.
단어 임베딩은 도움이 되지만 성능 향상의 주된 원인은 GCN 기반 매핑과 상관 모델링에 있다.
분류기 시각화는 의미 있는 의미적 토폴로지를 보여주며 관련 라벨이 분류기 공간에서 클러스터를 형성한다.
ML-GCN을 통한 학습 이미지 표현은 순수 ResNet 기반 대비 이미지 검색 품질을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.