Skip to main content
QUICK REVIEW

[논문 리뷰] Preserving Semantic Relations for Zero-Shot Learning

Yashas Annadani, Soma Biswas|arXiv (Cornell University)|2018. 03. 08.
Domain Adaptation and Few-Shot Learning참고 문헌 34인용 수 79
한 줄 요약

논문은 동일성, 유사성, 비유사성 관계를 관계 인식 인코더–디코더 프레임워크로 모델링하여 임베딩 공간에서 클래스 간 의미 관계를 보존하고, 여러 제로샷 및 일반화 제로샷 벤치마크에서 최첨단 성능을 달성하며, 일부 클래스 임베딩이 사용 불가능한 경우에도 대략적인 의미 추론을 가능하게 한다.

ABSTRACT

Zero-shot learning has gained popularity due to its potential to scale recognition models without requiring additional training data. This is usually achieved by associating categories with their semantic information like attributes. However, we believe that the potential offered by this paradigm is not yet fully exploited. In this work, we propose to utilize the structure of the space spanned by the attributes using a set of relations. We devise objective functions to preserve these relations in the embedding space, thereby inducing semanticity to the embedding space. Through extensive experimental evaluation on five benchmark datasets, we demonstrate that inducing semanticity to the embedding space is beneficial for zero-shot learning. The proposed approach outperforms the state-of-the-art on the standard zero-shot setting as well as the more realistic generalized zero-shot setting. We also demonstrate how the proposed approach can be useful for making approximate semantic inferences about an image belonging to a category for which attribute information is not available.

연구 동기 및 목표

  • 무라진 새로 등장하는 카테고리를 새 라벨링 데이터 없이 인식하려는 제로샷 학습의 필요성 제시(속성/단어 임베딩 등 의미 설명 활용).
  • 이미지 임베딩 공간에서 의미 공간의 구조를 동일한 클래스 관계, 유사한 클래스 관계, 비유사한 클래스 관계로 분해하여 보존.
  • 관계 인식 목표 및 재구성 제약을 강제하는 학습 가능한 인코더–디코더 모델을 개발하여 ZSL 및 일반화 ZSL 성능 향상.
  • 의미 관계를 보존하면 본 Seen 클래스의 판별력이 향상되고 unseen 클래스로 일반화되며 일부 임베딩이 없을 때 근사적 의미 추론이 가능함.

제안 방법

  • 클래스 임베딩을 시각적(임베딩) 공간으로 매핑하는 인코더 f(y; theta_f)와 입력을 재구성하는 디코더 g(x; theta_g)를 사용한다.
  • 코사인 유사도 delta 간의 관계를 바탕으로 의미 공간을 동일(delta=1), 의미적으로 유사한 경우(tau <= delta < 1), 의미적으로 비유사한 경우(delta < tau)로 분해한다.
  • 세 가지 목표 항목을 도입한다: O1은 적응적 힌지 유사 손실로 동일한 쌍과 비유사한 쌍을 정렬; O2는 의미적으로 유사한 클래스의 유사성을 강화하되 비유사 클래스에 대한 한계를 준수; O3 재구성 손실 ||y_r - hat{y}_r||^2로 인코더를 정규화.
  • 동일, 유사, 비유의 관계를 인코딩하기 위한 quadruplet 유사 샘플링(y_r, x_i, x_j, x_k)와 업데이트를 위한 정보성 튜플을 선택하는 온라인 하드 네거티브 마이닝.
  • 결합된 목표 O = (1/|B|) sum_B (O1 + lambda1 * O2 + lambda2 * O3)로 학습하고, 클래스 c_r에 대해 시각 공간에서 근접 이웃 추론을 s(f(y^c_r), x^u)로 수행한다.
  • 모든 후보를 하드 마이닝하는 대신 x_j(유사)와 x_k(비유사)에 대해 p개의 후보를 샘플링하고 가장 큰 손실 항으로 업데이트하여 수렴 속도를 높인다.

실험 결과

연구 질문

  • RQ1임베딩 공간에서 클래스 임베딩의 의미 구조를 보존하는 것이 제로샷 인식 성능 향상으로 이어지는가?
  • RQ2관계 인식 인코더–디코더 프레임워크가 표준 및 일반화 제로샷 벤치마크에서 최첨단 ZSL 방법을 앞서는가?
  • RQ3대규모 데이터셋(ImageNet 등)에서의 성능 및 일부 클래스 임베딩이 없을 때 대략적인 의미 추론 지원 여부는?
  • RQ4각 구성요소의 기여도(관계 보존, 재구성 손실)가 전체 성능에 어떤 영향을 미치는가?

주요 결과

방법SUNAWA2CUBaPY
DAP39.946.140.033.8
IAP19.435.924.036.6
CONSE38.844.534.326.9
CMT39.937.934.628.0
SSE58.554.949.234.8
LATEM55.355.849.335.2
ALE58.162.554.939.7
DEVISE56.559.752.039.8
SJE53.761.953.932.9
ESZSL54.558.653.938.3
SYNC56.346.655.623.9
SAE40.354.133.38.3
MSE+Recons.(B1)58.554.949.234.8
Proposed - O2(B2)57.157.251.531.6
Proposed - O3(B3)58.762.452.737.2
Proposed61.463.856.038.4
  • 전통적인 ZSL 설정에서 SUN, AWA2, CUB에 대해 최첨단 성능 달성.
  • SUN, AWA2, CUB, aPY 데이터셋 전반에서 경쟁력 있는 조화 평균(Harmonic Mean)을 포함한 강력한 일반화 제로샷 성능 얻음.
  • 대규모 이미지넷에서 기존 방법과 일반화 ZSL 설정 모두에서 경쟁 우위의 성능.
  • 임의의 카테고리 임베딩이 없더라도 코사인 유사도 기반으로 의미적으로 관련된 알려진 카테고리를 제안하는 근사 의미 추론 가능성.
  • 제안된 O1–O3 프레임워크를 통한 튜플 마이닝은 더 빠른 수렴과 강건한 업데이트를 제공(약 5 에폭 내 조기 이득).
  • 기저선들 간에 의미 관계를 보존하는 O2가 특히 클래스 간 의미가 넓은 거칠게 구분되는 데이터셋에서 뚜렷한 이득을 제공.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.