QUICK REVIEW

[논문 리뷰] Query-Adaptive R-CNN for Open-Vocabulary Object Detection and Retrieval.

Ryota Hinami, Shin’ichi Satoh|arXiv (Cornell University)|2017. 11. 27.

Multimodal Machine Learning Applications참고 문헌 31인용 수 3

한 줄 요약

이 논문은 텍스트 쿼리에서 검출기 가중치를 생성함으로써 Faster R-CNN을 개방형 어휘 객체 검출로 확장하는 새로운 엔드 투 엔드 프레임워크인 Query-Adaptive R-CNN을 제안한다. 쿼리 적응형 분류와 부정적 문장 증강을 통해 개선된 식별력을 갖추고, 100만 장의 이미지에서 0.5초 이내로 객체를 검색하고 국소화하며, Flickr30k Entities에서 최고 성능을 기록한다.

ABSTRACT

We address the problem of open-vocabulary object retrieval and localization, which is to retrieve and localize objects from a very large-scale image database immediately by a textual query (e.g., a word or phrase). We first propose Query-Adaptive R-CNN, a simple yet strong framework for open-vocabulary object detection. Query-Adaptive R-CNN is a simple extension of Faster R-CNN from closed-vocabulary to open-vocabulary object detection: instead of learning a class-specific classifier and regressor, we learn a detector generator that transforms a text into classifier and regressor weights. All of its components can be learned in an end-to-end manner. Even with its simple architecture, it outperforms all state-of-the-art methods in the Flickr30k Entities phrase localization task. In addition, we propose negative phrase augmentation, a generic approach for exploiting hard negatives in the training of open-vocabulary object detection that significantly improves the discriminative ability of the generated classifier. We show that our system can retrieve and localize objects specified by a textual query from one million images in only 0.5 seconds.

연구 동기 및 목표

대규모 이미지 데이터베이스에서 자연어 쿼리를 사용하여 개방형 어휘 객체 검출 및 검색을 가능하게 하기 위해.
고정된 닫힘집합 클래스를 초월해 새로운 텍스트 쿼리에 동적으로 적응할 수 있도록, 객체 검출의 일반화 문제를 해결하기 위해.
훈련 중 효과적인 하드 음성 마이닝을 통해 개방형 어휘 환경에서의 모델 식별 능력을 향상시키기 위해.
대규모 이미지 컬렉션에서 실시간 검색 및 국소화를 위한 빠른 엔드 투 엔드 추론을 달성하기 위해.

제안 방법

Query-Adaptive R-CNN은 Faster R-CNN의 클래스별 분류기와 회귀기 대신, 텍스트 쿼리에서 분류기 및 회귀기 가중치를 생성하는 검출기 생성기로 대체한다.
검출기 생성기는 엔드 투 엔드로 훈련되어, 쿼리에 특화된 검출을 위한 시각적 및 텍스트 표현의 공동 최적화를 가능하게 한다.
부정적 문장 증강은 훈련 중 하드 음성 문장을 명시적으로 모델링하기 위한 데이터 증강 전략으로 도입되어 분류기의 일반화 능력을 향상시킨다.
프리트레인된 시각 및 텍스트 인코더를 활용하여 이미지와 쿼리를 공유 임베딩 공간에 매핑함으로써 정렬을 달성한다.
시스템은 영역 제안 네트워크(RPN)를 사용해 후보 객체 제안을 생성하고, 이를 쿼리 생성 가중치를 사용해 점수를 매긴다.
추론은 매우 효율적이며, 100만 장의 이미지에서 0.5초 이내로 검색 및 국소화를 수행할 수 있다.

실험 결과

연구 질문

RQ1각 새로운 클래스에 대해 재학습이 필요 없이, 단순하고 엔드 투 엔드 프레임워크가 개방형 어휘 쿼리에 객체 검출을 적응시킬 수 있는가?
RQ2검출기 생성기가 자연어 쿼리에서 정확한 분류기 및 회귀기 가중치를 얼마나 효과적으로 생성할 수 있는가?
RQ3부정적 문장 증강이 개방형 어휘 검출에서 식별 능력을 얼마나 향상시키는가?
RQ4대규모 이미지 데이터베이스에서 시스템의 추론 속도와 확장성은 어떠한가?

주요 결과

Query-Adaptive R-CNN은 Flickr30k Entities의 문장 국소화 벤치마크에서 이전 모든 방법을 능가하는 최고 성능을 기록한다.
모델은 단지 0.5초 만에 100만 장의 이미지에서 객체를 검색하고 국소화하여 높은 추론 효율성을 입증한다.
부정적 문장 증강은 특히 모호하거나 희귀한 문장에 대해 분류기의 식별 능력을 크게 향상시킨다.
훈련 가능한 엔드 투 엔드 검출기 생성기는 피팅 조정 없이도 새로운 쿼리에 강력한 일반화 능력을 보여준다.
다양하고 복잡한 텍스트 쿼리가 포함된 도전적인 개방형 어휘 조건에서도 높은 정확도를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.