[논문 리뷰] Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval
이 논문은 다중 레이블 이미지 내에서 다수의 수준의 의미적 유사성을 유지하기 위해 리스트와 기반한 순위 지도를 사용하여 특징 표현과 해시 코드를 함께 학습하는 새로운 딥 러닝 프레임워크인 딥 세마틱 랭킹 기반 해싱(DSRH)을 제안한다. 부드럽지 않은 순위 최적화를 위한 서rogate 손실을 활용함으로써 DSRH는 다중 레이블 검색 벤치마크에서 최신 기술을 크게 능가하며, NDCG, ACG 및 mAP 지표에서 최신 성능을 달성한다.
With the rapid growth of web images, hashing has received increasing interests in large scale image retrieval. Research efforts have been devoted to learning compact binary codes that preserve semantic similarity based on labels. However, most of these hashing methods are designed to handle simple binary similarity. The complex multilevel semantic structure of images associated with multiple labels have not yet been well explored. Here we propose a deep semantic ranking based method for learning hash functions that preserve multilevel semantic similarity between multi-label images. In our approach, deep convolutional neural network is incorporated into hash functions to jointly learn feature representations and mappings from them to hash codes, which avoids the limitation of semantic representation power of hand-crafted features. Meanwhile, a ranking list that encodes the multilevel similarity information is employed to guide the learning of such deep hash functions. An effective scheme based on surrogate loss is used to solve the intractable optimization problem of nonsmooth and multivariate ranking measures involved in the learning procedure. Experimental results show the superiority of our proposed approach over several state-of-the-art hashing methods in term of ranking evaluation metrics when tested on multi-label image datasets.
연구 동기 및 목표
- 다중 레이블 이미지 간의 복잡한 다수 수준의 의미적 유사성을 유지하는 데에 기존의 해시 방법의 한계를 해결한다.
- 수작업으로 만든 특징이 유도하는 의미적 갭을 제거하기 위해 딥 컨volution 네트워크(CNN)를 해시 함수 학습 파이프라인에 직접 통합한다.
- 특징 표현과 이진 해시 코드를 별도의 두 단계 과정이 아닌 동시에 학습하는 공동 최적화 프레임워크를 개발한다.
- 딥 해싱에서 순위 기반 최적화의 비연속성과 다변수 성격을 효과적으로 다루기 위해 트리플릿 랭킹 기반의 서rogate 손실을 도입한다.
- 레이블 기반의 랭킹 목록을 통한 의미적 유사성의 명시적 모델링을 통해 다중 레이블 이미지 데이터셋에서의 검색 성능을 향상시킨다.
제안 방법
- 원시 이미지를 직접 이진 해시 코드로 매핑하는 컨volution 네트워크(CNN)를 사용하여 딥 해시 함수를 구축함으로써 특징과 코드의 엔드 투 엔드 학습을 가능하게 한다.
- 질의 이미지와 데이터베이스 이미지 간의 공통 레이블을 기반으로 다수 수준의 의미적 랭킹 목록을 정의하여 상대적 유사성(예: 매우 유사, 일반적으로 유사, 유사하지 않음)을 인코딩한다.
- 이미지 트리플릿의 리스트와 기반한 순위 문제로 학습 목표를 설정하여 해밍 공간 내에서 유사성의 상대적 순서를 유지한다.
- 비가능분리성이고 다변수적인 순위 측정법(예: NDCG 또는 ACG)을 근사하기 위해 트리플릿 세트 기반의 서rogate 손실 함수를 사용하여 확률적 경사 하강 최적화를 가능하게 한다.
- CNN 특징과 해시 매핑을 엔드 투 엔드로 최적화하는 공동 학습 기반 구현을 수행하며, 스킵 연결과 적응형 가중치를 활용해 다수 수준의 유사성에 대한 특징 표현을 향상시킨다.
- 사전 훈련된 및 미세조정된 CNN 특징을 모두 사용하여 모델을 평가함으로써, 특징만 미세조정하는 기준 모델에 비해 공동 학습의 우수성을 입증한다.
실험 결과
연구 질문
- RQ1리스트와 기반한 순위 지도를 갖춘 딥 신경망은 다중 레이블 이미지 검색에서 다수 수준의 의미적 유사성을 효과적으로 유지할 수 있는가?
- RQ2수작업 또는 사전 훈련된 특징을 사용하는 전통적인 두 단계 파이프라인에 비해 특징과 해시 코드를 엔드 투 엔드로 공동 학습하는 방식은 어떻게 비교되는가?
- RQ3부드럽지 않은 순위 측정법을 위한 서rogate 손실을 사용할 경우, 최적화 및 검색 성능 향상에 어느 정도 기여하는가?
- RQ4랭킹 손실에 적응형 가중치를 통합할 경우, 특히 상위 랭킹 결과에서 검색 품질 향상에 기여하는가?
- RQ5사전 훈련된 및 미세조정된 CNN 특징을 모두 사용할 때, 제안된 방법은 다중 레이블 데이터셋에서 최신 기술 해시 방법에 비해 어떻게 성능을 내는가?
주요 결과
- DSRH는 MIRFLICKR-25K 및 NUS-WIDE 데이터셋에서 모두 최신 기술 성능을 달성하여, NDCG, ACG 및 가중 mAP를 포함한 모든 순위 평가 지표에서 기존의 해시 방법을 능가한다.
- 적응형 가중치를 갖춘 서rogate 손실 사용은 상위 100개의 NDCG 및 ACG 점수를 향상시켜 더 관련성이 높은 항목에 초점을 맞추지만, 평균 순위 성능는 약간 감소시킨다.
- 첫 번째 완전 연결 층을 해시 층에 직접 연결함으로써 다수 수준의 의미적 유사성과 관련된 더 많은 시각적 외형 정보를 유지함으로써 성능 향상을 이룬다.
- 미세조정된 CNN 특징을 사용할 때조차도 DSRH는 CCA-ITQ 및 HDML과 같은 다른 방법들을 일관되게 능가하여 공동 학습과 랭킹 지도의 효과를 입증한다.
- 여러 CNN 레이어의 특징을 연결하는 방법(예: 마지막 두 레이어)은 DSRH보다 성능이 열 劣하므로, DSRH의 타이트하게 결합된 해시 함수 설계의 우수성을 검증한다.
- 미세조정된 특징을 사용할 때 비지도 기반 ITQ는 지도 기반 CCA-ITQ와 거의 유사한 성능을 보였지만, DSRH는 여전히 양자를 모두 능가하여 명시적 다수 수준의 랭킹 지도 학습의 이점을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.