QUICK REVIEW

[논문 리뷰] Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs

Xiaolong Wang, Yufei Ye|arXiv (Cornell University)|2018. 03. 21.

Domain Adaptation and Few-Shot Learning참고 문헌 42인용 수 32

한 줄 요약

이 논문은 시각적 분류기를 예측하기 위해 그래프 컬러이션 네트워크(GCNs)를 통해 의미적 임bedding과 지식 그래프를 모두 활용하는 새로운 제로샷 인식 프레임워크를 제안한다. 지식 그래프를 통해 정보를 전파함으로써, ImageNet의 2단계 설정에서 기존 최고 성능(SOTA) 대비 20.9% 상대적 향상을 달성하며, 노이즈가 있는 그래프에 대해서도 강건하고 제로샷 일반화 성능 향상이 뚜렷하다.

ABSTRACT

We consider the problem of zero-shot recognition: learning a visual classifier for a category with zero training examples, just using the word embedding of the category and its relationship to other categories, which visual data are provided. The key to dealing with the unfamiliar or novel category is to transfer knowledge obtained from familiar classes to describe the unfamiliar class. In this paper, we build upon the recently introduced Graph Convolutional Network (GCN) and propose an approach that uses both semantic embeddings and the categorical relationships to predict the classifiers. Given a learned knowledge graph (KG), our approach takes as input semantic embeddings for each node (representing visual category). After a series of graph convolutions, we predict the visual classifier for each category. During training, the visual classifiers for a few categories are given to learn the GCN parameters. At test time, these filters are used to predict the visual classifiers of unseen categories. We show that our approach is robust to noise in the KG. More importantly, our approach provides significant improvement in performance compared to the current state-of-the-art results (from 2 ~ 3% on some metrics to whopping 20% on a few).

연구 동기 및 목표

훈련 예제가 전혀 없는 새로운 시각적 카테고리 인식 문제를 해결한다.
지식 그래프에서 명시적인 관계 지식을 통합함으로써 순수 의미적 임베딩 기반 방법의 한계를 극복한다.
보이는 클래스에서 보이지 않는 클래스로 지식을 전이하기 위해 카테고리 간의 구조적 관계를 활용하여 제로샷 일반화 성능을 향상시킨다.
노이즈가 있는 지식 그래프에 대해서도 강건성을 유지하면서 제로샷 인식 벤치마크에서 높은 성능을 유지함을 입증한다.
표준 및 일반화된 제로샷 학습 설정 모두에서 최고 성능을 달성한다.

제안 방법

각 노드가 시각적 카테고리를 나타내고, 간선이 의미적 또는 범주적 관계를 표현하는 지식 그래프를 구축한다.
지식 그래프의 각 노드에 대해 사전 학습된 단어 임베딩(GloVe 등)을 입력 특성로 사용한다.
다중 레이어를 통해 노드 간 정보를 전파하고 집계하기 위해 6층의 깊은 그래프 컬러이션 네트워크(GCN)를 적용한다.
네트워크 파라미터 최적화를 위해 일부 보이는 카테고리의 시각적 분류기를 사용해 GCN을 훈련한다.
추론 시점에선, 훈련된 GCN을 사용해 단지 의미적 임베딩과 그래프 연결 정보에 기반해 보이지 않는 카테고리의 시각적 분류기를 예측한다.
표준 제로샷(테스트 시에만 보이지 않는 클래스 존재) 및 일반화된 제로샷(테스트 시에 보이는 클래스와 보이지 않는 클래스 모두 존재) 설정을 모두 지원한다.

실험 결과

연구 질문

RQ1의미적 임베딩 외에 구조적 관계적 인덕티브 바이어스를 제공하는 지식 그래프가 제로샷 인식 성능을 향상시킬 수 있는가?
RQ2노이즈가 존재하는 상황에서도 지식 그래프의 크기와 복잡성이 증가함에 따라 제로샷 인식 성능가 어떻게 변화하는가?
RQ3직접 단어 임베딩에서 시각적 특징으로 매핑하는 것에 비해 GCN 기반 메시지 전달 메커니즘이 일반화 성능 향상에 얼마나 기여하는가?
RQ4보이는 클래스와 보이지 않는 클래스가 모두 테스트 시 존재하는 일반화된 제로샷 학습 설정에서 제안된 방법의 성능은 어떠한가?
RQ5단어 임베딩 소스의 변동에 대해 방법이 강건한가, 그리고 순수하게 단어 임베딩에 의존하는 모델보다 우수한 성능을 내는가?

주요 결과

제안된 방법은 ImageNet의 2단계 제로샷 설정에서 62.4%의 top-1 정확도를 달성하여 기존 SOTA(43.7%) 대비 18.7%의 절대적 향상을 보였다.
2단계 설정에서, 제안된 방법은 SOTA 방법인 EXEM 대비 top-5 정확도에서 20.9% 향상되어 뚜렷한 성능 향상을 입증했다.
GloVe, FastText, word2vec 등 다양한 단어 임베딩 소스에서도 높은 성능 유지를 보이며, 임베딩 소스의 변동에 강건함을 입증했다.
일반화된 제로샷 설정에서, ConSE 및 DeViSE와 같은 기반 모델 대비 모든 지표와 데이터셋에서 성능이 거의 두 배로 향상되었다.
백본 네트워크를 Inception-v1에서 ResNet-50으로 전환했을 때 일관되게 성능 향상이 발생하여, 이 방법의 확장성과 타당성을 확인했다.
시각화 결과, 모델은 'okapi'와 같은 보이지 않는 카테고리를 높은 신뢰도로 정확히 예측하는 데 성공했으며, 기반 모델은 여전히 보이는 클래스에 편향되어 있음을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.