QUICK REVIEW

[논문 리뷰] Learning Local Image Descriptors with Deep Siamese and Triplet Convolutional Networks by Minimising Global Loss Functions

Vijay Kumar B G, Gustavo Carneiro|arXiv (Cornell University)|2015. 12. 31.

Advanced Image and Video Retrieval Techniques참고 문헌 28인용 수 176

한 줄 요약

이 논문은 일반화 능력과 성능 향상을 위해 삼중체 및 시아모이드 컨볼루션 네트워크를 사용하여 국소 이미지 기반 기술자를 훈련시키는 새로운 글로벌 손실 함수를 제안한다. 이 방법은 UBC 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성하였으며, 삼중체 손실과 글로벌 손실를 모두 사용해 훈련한 삼중체 네트워크가 가장 우수한 특징 임bedding을 제공하고, 글로벌 손실를 적용한 중심-주변 시아모이드 네트워크가 이전의 쌍별 유사도 방법보다 FPR95 점수에서 거의 반으로 향상되었다.

ABSTRACT

Recent innovations in training deep convolutional neural network (ConvNet) models have motivated the design of new methods to automatically learn local image descriptors. The latest deep ConvNets proposed for this task consist of a siamese network that is trained by penalising misclassification of pairs of local image patches. Current results from machine learning show that replacing this siamese by a triplet network can improve the classification accuracy in several problems, but this has yet to be demonstrated for local image descriptor learning. Moreover, current siamese and triplet networks have been trained with stochastic gradient descent that computes the gradient from individual pairs or triplets of local image patches, which can make them prone to overfitting. In this paper, we first propose the use of triplet networks for the problem of local image descriptor learning. Furthermore, we also propose the use of a global loss that minimises the overall classification error in the training set, which can improve the generalisation capability of the model. Using the UBC benchmark dataset for comparing local image descriptors, we show that the triplet network produces a more accurate embedding than the siamese network in terms of the UBC dataset errors. Moreover, we also demonstrate that a combination of the triplet and global losses produces the best embedding in the field, using this triplet network. Finally, we also show that the use of the central-surround siamese network trained with the global loss produces the best result of the field on the UBC dataset. Pre-trained models are available online at https://github.com/vijaykbg/deep-patchmatch

연구 동기 및 목표

표준 시아모이드 훈련을 삼중체 네트워크로 대체하여 학습된 국소 이미지 기반 기술자의 일반화 능력과 강건성을 향상시키기 위해.
시아모이드 및 삼중체 네트워크에서의 과적합 문제를 해결하기 위해 전체 훈련 세트 오차를 최소화하는 글로벌 손실 함수를 도입하기 위해.
기존 방법과 비교하여 삼중체 네트워크와 글로벌 손실이 국소 기반 기술자 학습에서 성능 향상에 기여하는지 평가하기 위해.
글로벌 손실이 개별 쌍/삼중체 기반 최적화를 넘어서 모델의 일반화 능력을 향상시킨다는 것을 입증하기 위해.

제안 방법

국소 이미지 기반 기술자 학습을 위한 삼중체 네트워크 아키텍처를 제안하며, 각 훈련 샘플은 쿼리 패치, 동일한 3D 위치의 양성 패치, 다른 3D 위치의 음성 패치로 구성된다.
전체 훈련 세트에서 내부 클래스 간 거리의 분산을 최소화하고 외부 클래스 간 거리의 분산을 최대화하는 글로벌 손실 함수를 도입하여 정규화를 향상시킨다.
삼중체 손실과 글로벌 손실을 조합하여 국소 대비 학습과 글로벌 분포 일관성을 동시에 최적화한다.
중앙 패치와 주변 컨텍스트를 처리하여 특징의 구분 능력을 향상시키기 위해 중심-주변 시아모이드 네트워크를 사용한다.
미니배치를 사용한 확률적 경사 하강법를 적용하며, 삼중체 네트워크를 사전 훈련된 시아모이드 모델의 가중치로 초기화하여 수렴 속도를 향상시킨다.
교차 검증을 통해 마진(m=0.01), 스케일링 파라미터(γ=1, t=0.4, λ=0.8)를 포함한 글로벌 손실 함수의 하이퍼파ram터를 튜닝한다.

실험 결과

연구 질문

RQ1삼중체 네트워크는 시아모이드 네트워크보다 국소 이미지 기반 기술자 학습에서 성능을 향상시킬 수 있는가?
RQ2글로벌 손실 함수를 통합함으로써 기반 기술자 학습에서 과적합을 줄이고 일반화 능력을 향상시킬 수 있는가?
RQ3삼중체 손실과 글로벌 손실의 조합은 각각의 손실만 사용할 경우보다 더 높은 성능을 낼 수 있는가?
RQ4글로벌 손실를 적용한 중심-주변 시아모이드 네트워크는 기존의 쌍별 유사도 방법을 초월할 수 있는가?

주요 결과

삼중체 손실과 글로벌 손실를 모두 사용해 훈련한 삼중체 네트워크(TNet-TGLoss)가 UBC 벤치마크에서 가장 뛰어난 특징 임bedding 성능을 기록하며, 이전의 모든 방법을 능가했다.
글로벌 손실를 적용한 중심-주변 시아모이드 네트워크(CS-SNet-GLoss)가 이전의 최신 기술 수준 2ch-2stream 방법보다 FPR95 점수를 거의 반으로 낮췄다.
TNet-TGLoss 모델은 UBC 훈련-테스트 조합 6개 전부에서 평균 FPR95를 가장 낮게 기록하여 뛰어난 강건성과 일반화 능력을 입증했다.
글로벌 손실는 수렴 속도가 빠르고, 더 적은 훈련 에포크 수에도 불구하고 성능이 뛰어나 일반화 능력 향상에 기여한다는 점에서 뚜렷한 효과를 보였다.
삼중체 손실와 글로벌 손실의 조합가 TNet-TGLoss 모델을 초월하지 못했으며, 이는 글로벌 손실이 삼중체 손실과 함께 사용될 때 가장 효과적임을 시사한다.
제안된 모델들은 임bedding 및 쌍별 유사도 설정 모두에서 최신 기술 수준 성능을 달성하였으며, 글로벌 손실는 표준 쌍별 훈련보다 더 뛰어난 성능을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.