QUICK REVIEW

[논문 리뷰] Quality Aware Network for Set to Set Recognition

Yu Liu, Junjie Yan|arXiv (Cornell University)|2017. 04. 11.

Video Surveillance and Tracking Methods참고 문헌 25인용 수 63

한 줄 요약

본 논문은 이미지 집합을 집계할 때 특징에 가중치를 주기 위해 이미지별 품질 점수를 학습하는 Quality Aware Network(QAN)를 제시하며, 명시적 품질 주석 없이 얼굴 인증과 사람 재식별 모두에 대해 세트 간 인식 성능을 향상시킨다.

ABSTRACT

This paper targets on the problem of set to set recognition, which learns the metric between two image sets. Images in each set belong to the same identity. Since images in a set can be complementary, they hopefully lead to higher accuracy in practical applications. However, the quality of each sample cannot be guaranteed, and samples with poor quality will hurt the metric. In this paper, the quality aware network (QAN) is proposed to confront this problem, where the quality of each sample can be automatically learned although such information is not explicitly provided in the training stage. The network has two branches, where the first branch extracts appearance feature embedding for each sample and the other branch predicts quality score for each sample. Features and quality scores of all samples in a set are then aggregated to generate the final feature embedding. We show that the two branches can be trained in an end-to-end manner given only the set-level identity annotation. Analysis on gradient spread of this mechanism indicates that the quality learned by the network is beneficial to set-to-set recognition and simplifies the distribution that the network needs to fit. Experiments on both face verification and person re-identification show advantages of the proposed QAN. The source code and network structure can be downloaded at https://github.com/sciencefans/Quality-Aware-Network.

연구 동기 및 목표

Robust set-to-set recognition을 위해 아이덴티티당 다중 이미지를 활용하면서 저품질 샘플의 영향을 완화한다.
엔드투엔드로 학습 가능한 네트워크를 개발하여 각 이미지의 특징과 품질 점수를 함께 학습한다.
품질 인식 가중치 집계가 단순 풀링 방법에 비해 세트 표현의 식별력을 향상시키는지 입증한다.
사람 재식별 및 비제한적 얼굴 인증 벤치마크에서 최첨단 또는 경쟁력 있는 성능을 보여준다.

제안 방법

두 지점으로 구성된 Quality Aware Network(QAN)을 제안한다. 한 가지 가지 분기는 이미지별 외관 특징을 추출하고 다른 하나는 각 이미지의 품질 점수를 예측한다.
학습된 품질 점수로 각 이미지 특징을 가중하여 세트 임베딩을 집계하는 세트 풀링 유닛을 통해 R_a(S) = (sum_i mu_i R_Ii) / (sum_i mu_i)로 표현한다. 여기서 mu_i = Q(I_i).
Softmax 손실을 이미지 수준 아이덴티티에 대해 사용하고, 세트 수준 트리플릿 손실을 사용하여 앵커/포지티브 세트를 함께 묶고 음수 세트를 분리하도록 엔드투엔드로 학습한다.
세트 풀링 유닛을 통해 그래디언트를 도출하여 품질이 높은 샘플이 최종 표현에 더 크게 기여하도록 하여 mu_i를 이미지에 대한 어텐션으로 효과적으로 취급한다.
학습된 품질이 인간의 판단과 상관 관계가 있으며 인식 태스크에서 인간이 제공하는 품질 라벨링보다 더 나은 성능을 낼 수 있음을 보여준다.

실험 결과

연구 질문

RQ1명시적 품질 감독 없이도 자동으로 학습된 이미지별 품질 점수가 세트 간 인식의 집계에 개선을 가져오는가?
RQ2특징 생성 부분과 품질 생성을 함께 엔드투엔드로 학습하는 것이 고정되거나 외부로 정의된 품질 단서보다 더 나은 표현을 생성하는가?
RQ3실제world 세트 간 인식 벤치마크에서 QAN은 얼굴 인증 및 사람 재식별 모두에서 특히 노이즈가 있는 상황에서 어떤 성능을 보이는가?
RQ4QAN에서 학습된 품질 분포가 데이터셋 간에 전달 가능(크로스-데이터셋 강건성)한가?

주요 결과

QAN은 사람 재식별에서 top-1 정확도를 크게 향상시키며: PRID2011에서 +11.1%, iLIDS-VID에서 +12.21%로 강력한 베이스라인 대비 향상.
QAN은 크로스 데이터셋 테스트에서 큰 이점이 있으며 베이스라인 대비 top-1을 PRID2011에서 15.6%, iLIDS-VID에서 8.2% 향상.
비제한적 얼굴 인증에서 QAN은 YouTube Face에서 FPR=0.001에서 미스 레이트를 15.6%, IJB-A에서 29.32% 감소시켰다.
QAN은 네 벤치마크 전반에서 일관되게 베이스라인 및 다수의 최첨단 방법보다 우수한 성능을 보이며 노이즈 샘플에 대한 강건성과 저-FPR 성능이 향상된다.
정성적 분석은 QAN의 학습된 품질이 인간의 이미지 품질 개념과 일치함을 보이고, 차단 중인 중간 수준 특징(Pool3)이 품질 생성에 가장 효과적임을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.