Skip to main content
QUICK REVIEW

[논문 리뷰] Transductive Zero-Shot Learning with Visual Structure Constraint

Ziyu Wan, Dongdong Chen|arXiv (Cornell University)|2019. 01. 06.
Domain Adaptation and Few-Shot Learning참고 문헌 42인용 수 46
한 줄 요약

본 논문은 트랜스덕티브 제로샷 학습 설정에서 합성 unseen-class 중심을 실제 시각적 클러스터와 정렬하기 위해 Chamfer-distance, bipartite matching, 그리고 Wasserstein distance의 세 가지 시각-구조 제약을 도입하여 투사 학습을 개선하고 라벨이 주어지지 않은 테스트 데이터 중 관련 없는 이미지들을 다루는 능력을 향상시킨다.

ABSTRACT

To recognize objects of the unseen classes, most existing Zero-Shot Learning(ZSL) methods first learn a compatible projection function between the common semantic space and the visual space based on the data of source seen classes, then directly apply it to the target unseen classes. However, in real scenarios, the data distribution between the source and target domain might not match well, thus causing the well-known extbf{domain shift} problem. Based on the observation that visual features of test instances can be separated into different clusters, we propose a new visual structure constraint on class centers for transductive ZSL, to improve the generality of the projection function (i.e. alleviate the above domain shift problem). Specifically, three different strategies (symmetric Chamfer-distance, Bipartite matching distance, and Wasserstein distance) are adopted to align the projected unseen semantic centers and visual cluster centers of test instances. We also propose a new training strategy to handle the real cases where many unrelated images exist in the test dataset, which is not considered in previous methods. Experiments on many widely used datasets demonstrate that the proposed visual structure constraint can bring substantial performance gain consistently and achieve state-of-the-art results. The source code is available at \url{https://github.com/raywzy/VSC}.

연구 동기 및 목표

  • Zero-shot 학습에서 테스트 데이터의 시각적 구조를 활용하여 도메인 시프트를 해결한다.
  • 프로젝션 학습을 개선하기 위해 투영된 unseen semantic centers를 실제 시각적 중심들과 일치시킨다.
  • 테스트 세트에 많은 관련 없는 이미지가 존재하는 현실적인 테스트 시나리오를 처리한다.
  • 새로운 데이터에 대해 배치 재최적화를 피함으로써 온라인이고 확장 가능한 트랜스덕티브 ZSL을 가능하게 한다.

제안 방법

  • 두-layer 임베딩 네트워크를 이용하여 unseen 클래스의 시맨틱을 시각 임베딩 공간으로 투영한다.
  • 소스 도메인 프로젝션 제약과 합성 중심을 실제 시각적 중심들과 정렬하는 시각-구조 제약을 함께 학습한다.
  • 세 가지 제약 변형: CDVSc(Chamfer-distance 기반 시각 구조 제약), BMVSc(Bipartite-matching 기반 시각 구조 제약), WDVSc(Wasserstein-distance 기반 시각 구조 제약).
  • CDVSc는 unseen 데이터의 K-means 군집 중심과 합성 중심 간의 대칭 Chamfer 거리를 사용하며 손실에 중심 간의 L2 거리를 더한다.
  • BMVSc는 일대일 할당을 Kuhn–Munkres 알고리즘으로 해결하는 최소 가중치 완료 매칭으로 공식화하며, 손실은 MSE와 이 할당을 결합한다.
  • WDVSc는 엔트로피 규제된 최적 수송(Sinkhorn)을 사용하여 소프트 할당을 가능하게 하고 정렬을 안정화한다.

실험 결과

연구 질문

  • RQ1 unseen-class 테스트 데이터의 시각 구조를 활용하여 투드덕티브 ZSL에서 프로젝션 학습을 개선할 수 있는가?
  • RQ2Chamfer, 이분 매칭, 워서스타인 기반 제약이 벤치마크 전체에서 일관된 성능 향상을 제공하는가?
  • RQ3관련 없는 이미지를 포함하는 현실적인 테스트 데이터는 방법에 어떤 영향을 미치는가?
  • RQ4속성 및 단어 벡터와 같은 다양한 시맨틱 공간과 서로 다른 클러스터 수 K에 대해 방법이 효과적인가?

주요 결과

  • 제안된 시각-구조 제약은 기존 방법 대비 여러 데이터셋에서 일반적 및 일반화된 ZSL 설정 하에서 상당한 성능 향상을 얻는다.
  • 세 가지 제약(CDVSc, BMVSc, WDVSc) 모두 일관되게 정확도를 향상시키며, WDVSc가 종종 최상위 결과를 달성한다.
  • 테스트 데이터에 관련 없는 이미지가 존재하는 현실 설정에서도 방법이 성능을 유지하도록 새로운 학습 전략이 가능하게 한다.
  • 단어 벡터 기반 공간을 포함한 다양한 시맨틱 공간에 대한 강건성을 보이며, 더 큰 K(세밀한 시각 구조)에서 이점이 데이터셋의 한계까지 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.