[논문 리뷰] Binary Generative Adversarial Networks for Image Retrieval
감시되지 않은 이진 해싱 방식(BGAN)은 이진 제약이 있는 GAN과 연속 기반 부호 활성화를 사용하여 이미지 검색용 이진 코드를 학습하며 CIFAR-10, NUS-WIDE, Flickr에서 강력한 mAP를 달성합니다.
The most striking successes in image retrieval using deep hashing have mostly involved discriminative models, which require labels. In this paper, we use binary generative adversarial networks (BGAN) to embed images to binary codes in an unsupervised way. By restricting the input noise variable of generative adversarial networks (GAN) to be binary and conditioned on the features of each input image, BGAN can simultaneously learn a binary representation per image, and generate an image plausibly similar to the original one. In the proposed framework, we address two main problems: 1) how to directly generate binary codes without relaxation? 2) how to equip the binary representation with the ability of accurate image retrieval? We resolve these problems by proposing new sign-activation strategy and a loss function steering the learning process, which consists of new models for adversarial loss, a content loss, and a neighborhood structure loss. Experimental results on standard datasets (CIFAR-10, NUSWIDE, and Flickr) demonstrate that our BGAN significantly outperforms existing hashing methods by up to 107\% in terms of~mAP (See Table tab.res.map.comp) Our anonymous code is available at: https://github.com/htconquer/BGAN.
연구 동기 및 목표
- 레이블 없이 확장 가능한 이미지 검색을 위한 비감독 이진 해싱 동기를 제공합니다.
- plausibly 이미지들을 생성하는 동시에 L-비트 이진 코드를 직접 학습하도록 BGAN을 제안합니다.
- 근접 구조, 콘텐츠(지각적) 손실, 적대적 손실의 가중합으로 정의된 손실을 설계하여 검색을 위한 이진 코드를 최적화합니다.
- 직접 이진 최적화가 완화된 해싱 방법보다 성능을 향상시킨다는 점을 보여줍니다.
제안 방법
- 인코더, 해싱 계층, 생성기, 판별기로 구성된 4-part BGAN 아키텍처를 도입합니다.
- 비감독 방식으로 이진 코드 학습을 안내하기 위해 KNN 기반 이웃 구조를 사용합니다.
- 완화 없이 직접 이진 코드를 가능하게 하는 continuation 기반 근사(app)와 함께 부호 활성화를 사용합니다.
- 이웃 구조 손실, 콘텐츠(지각적) 손실, 적대적 손실의 가중합으로 정의된 손실을 사용합니다.
- SGD로 학습하며 점진적으로 부호 함수를 근사하도록 단계적 β 진행을 통해 sgn(z)에 수렴합니다.
실험 결과
연구 질문
- RQ1RQ1: BGAN의 각 구성요소가 검색 성능에 어떤 영향을 미치는가?
- RQ2RQ2: 직접 이진 최적화(완화 없음)가 해싱 성능을 향상시키는가?
- RQ3RQ3: BGAN이 최첨단 해싱 방법을 현저히 능가하는가?
- RQ4RQ4: 대규모 검색에서 BGAN의 효율성과 실용성은 어떤가?
주요 결과
- BGAN은 표준 데이터셋에서 기존의 비감독 해싱 방법들을 능가합니다.
- 세 가지 손실 구성요소(이웃, 콘텐츠, 적대적)를 모두 통합하면 최상의 검색 성능을 얻습니다.
- continuation 기반 부호 활성화에 의한 직접 이진 최적화는 완화 기반이나 2단계 접근 방식보다 개선을 나타냅니다.
- 구조가 CIFAR-10, NUS-WIDE, Flickr의 비트 길이에 대해 여러 기준선보다 강력한 mAP 증가를 보입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.