QUICK REVIEW

[논문 리뷰] Zero-Shot Hashing via Transferring Supervised Knowledge

Yang Yang, Wei‐Lun Chen|arXiv (Cornell University)|2016. 06. 16.

Advanced Image and Video Retrieval Techniques참고 문헌 34인용 수 33

한 줄 요약

이 논문은 0/1 레이블 벡터를 의미적 임베딩 공간으로 투영하고, 이를 회전을 통해 정렬하여 의미적 이탈을 감소시킴으로써, 이미 학습된 이미지 카테고리에서의 지도 학습 지식을 새로 등장한 카테고리로 전이하는 새로운 방법인 Zero-Shot Hashing(ZSH)을 제안한다. ZSH는 CIFAR-10, ImageNet, MIRFlickr에서의 제로샷 이미지 검색에서 최신 기술 성능을 달성하며, 128비트 코드 기준으로 기존 방법 대비 최대 19% 향상된 MAP 성능을 기록한다.

ABSTRACT

Hashing has shown its efficiency and effectiveness in facilitating large-scale multimedia applications. Supervised knowledge e.g. semantic labels or pair-wise relationship) associated to data is capable of significantly improving the quality of hash codes and hash functions. However, confronted with the rapid growth of newly-emerging concepts and multimedia data on the Web, existing supervised hashing approaches may easily suffer from the scarcity and validity of supervised information due to the expensive cost of manual labelling. In this paper, we propose a novel hashing scheme, termed \emph{zero-shot hashing} (ZSH), which compresses images of "unseen" categories to binary codes with hash functions learned from limited training data of "seen" categories. Specifically, we project independent data labels i.e. 0/1-form label vectors) into semantic embedding space, where semantic relationships among all the labels can be precisely characterized and thus seen supervised knowledge can be transferred to unseen classes. Moreover, in order to cope with the semantic shift problem, we rotate the embedded space to more suitably align the embedded semantics with the low-level visual feature space, thereby alleviating the influence of semantic gap. In the meantime, to exert positive effects on learning high-quality hash functions, we further propose to preserve local structural property and discrete nature in binary codes. Besides, we develop an efficient alternating algorithm to solve the ZSH model. Extensive experiments conducted on various real-life datasets show the superior zero-shot image retrieval performance of ZSH as compared to several state-of-the-art hashing methods.

연구 동기 및 목표

대규모 멀티미디어 시스템에서 새로 등장하는 이미지 카테고리에 대해 레이블이 부족한 문제를 해결한다.
해당 카테고리에 대한 수동 레이블링이 필요 없이 효과적인 이미지 검색을 가능하게 한다.
레이블 간의 의미적 관계를 모델링하여, 이미 보았던 카테고리에서의 지도 학습 지식을 새로 보지 않은 카테고리로 전이한다.
임베딩 공간의 회전을 통해 시각적 특징과 고수준 의미 간의 의미적 갭을 감소시킨다.
해시 코드의 국소적 구조와 이산성 특성을 유지하여 검색 품질을 향상시킨다.

제안 방법

모든 카테고리 간의 의미적 관계를 모델링하기 위해 0/1 형식의 레이블 벡터를 사전에 학습된 의미적 임베딩 공간(예: Word2Vec 또는 GloVe)으로 투영한다.
임베딩된 의미적 공간에 회전 연산을 적용하여 시각적 특징 공간과 더 가까이 정렬함으로써 의미적 이탈을 감소시킨다.
해시 코드 학습, 의미적 정렬, 국소 데이터 구조 유지의 세 가지 요소를 동시에 최적화하는 ZSH 모델을 제안한다.
학습 목표에 이산 최적화 제약 조건을 통합하여 해시 코드의 이산성을 강제한다.
수렴을 보장하기 위해 반복적으로 해시 코드와 임베딩 파라미터를 갱신하는 교대 최적화 알고리즘을 사용한다.
해시 함수 학습과 제로샷 검색 작업 평가를 위해 보조 데이터셋(예: ImageNet)을 활용한다.

실험 결과

연구 질문

RQ1기존에 보았던 이미지 카테고리에서의 지도 학습 지식이 새로운 카테고리의 검색을 가능하게 하기 위해 효과적으로 전이될 수 있는가?
RQ2레이블 간의 의미적 관계를 어떻게 모델링할 수 있을까? 이를 통해 새로운 클래스로의 일반화 성능을 향상시킬 수 있는가?
RQ3임베딩 공간의 회전을 통한 의미적 정렬이 시각적 특징과 고수준 의미 간의 의미적 갭을 어느 정도 감소시킬 수 있는가?
RQ4해시 코드의 국소적 구조와 이산성을 유지하는 것이 제로샷 환경에서의 검색 성능 향상에 기여하는가?
RQ5다양한 실제 데이터셋에서 ZSH는 최신 기술 해싱 방법들보다 어떻게 비교되는가?

주요 결과

ZSH는 모든 테스트 데이터셋에서 가장 높은 평균 정밀도(MAP)를 기록했으며, MIRFlickr 데이터셋에서 128비트 코드 길이 기준으로 두 번째로 우수한 방법(COSDISH) 대비 최대 19% 향상된 성능을 보였다.
CIFAR-10 데이터셋에서 ZSH는 32비트 코드 길이 기준으로 MAP 0.3262를 기록했으며, 관련 이미지 정밀도(Precision@related) 측면에서 두 번째로 우수한 방법보다 뚜렷한 우월성을 보였다.
모든 데이터셋에서 다양한 코드 길이에 대해 MAP 및 정밀도 측면에서 일관된 우수성을 보였으며, 64비트를 초과할 경우 노이즈 증가로 인해 성능 저하가 발생하는 경향을 보였다.
회전을 적용한 의미적 임베딩 공간을 사용함으로써 의미적 이탈 문제를 감소시켜 시각적 특징과 레이블 의미 간의 정렬을 향상시켰다.
ZSH는 이미지가 중복 태그를 공유하는 실제 생활 환경의 다중 레이블 데이터(MIRFlickr)에서도 강력한 성능을 유지하여 실용적 적용 가능성을 확인했다.
교대 최적화 알고리즘이 경험적으로 수렴하고 효율적이었으며, ZSH 모델의 효과적인 학습을 가능케 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.