QUICK REVIEW

[논문 리뷰] Learning feed-forward one-shot learners

Luca Bertinetto, João F. Henriques|arXiv (Cornell University)|2016. 06. 16.

Video Surveillance and Tracking Methods참고 문헌 17인용 수 241

한 줄 요약

이 논문은 learnet을 도입합니다. learnet은 단일 샘플에서 pupil 네트워크의 매개변수를 예측하는 두 번째 신경망으로, 분류 및 추적을 위한 진정한 피드포워드(one-shot) 학습을 가능하게 합니다. 예측된 매개변수 공간을 합리적으로 유지하기 위해 인자로 분해된 선형 및 컨볼루션 층을 사용하며, Omniglot OCR 및 시각 객체 추적 벤치마크에서 경쟁력 있는 결과를 보입니다.

ABSTRACT

One-shot learning is usually tackled by using generative models or discriminative embeddings. Discriminative methods based on deep learning, which are very effective in other learning scenarios, are ill-suited for one-shot learning as they need large amounts of training data. In this paper, we propose a method to learn the parameters of a deep model in one shot. We construct the learner as a second deep network, called a learnet, which predicts the parameters of a pupil network from a single exemplar. In this manner we obtain an efficient feed-forward one-shot learner, trained end-to-end by minimizing a one-shot classification objective in a learning to learn formulation. In order to make the construction feasible, we propose a number of factorizations of the parameters of the pupil network. We demonstrate encouraging results by learning characters from single exemplars in Omniglot, and by tracking visual objects from a single initial exemplar in the Visual Object Tracking benchmark.

연구 동기 및 목표

일회성 최적화 없이 원샷 판별 학습의 병목을 동기부여하고 해결한다.
단일 샘플에서 pupil 네트워크의 모든 매개변수를 예측하는 메타 학습 네트워크(learnet)를 제안한다.
원샷 매개변수 예측을 가능하게 하기 위해 대각선/비공유(parameter factorization)를 개발한다.
OCR(Omniglot) 및 시각 객체 추적 벤치마크에서 실행 가능성과 경쟁력을 입증한다.

제안 방법

원샷 학습을 exemplar z를 매개변수 W로 매핑하는 learnet를 통해 동적 매개변수 예측으로 구성한다(φ(·;W)).
learnet를 x, z, ℓ의 삼중항에 걸친 원샷 목표를 최소화하여 엔드-투-엔드로 학습한다. ℓ은 같은/다른 클래스임을 나타낸다.
가중치 행렬을 M′ diag(w(z)) M으로 분해하여 파라미터 폭발을 해결하고 learnet 출력이 dk에서 선형의 d 또는 합성층의 경우 f^2 d로 감소하도록 한다.
y = M′ * w(z) *d M * x + b(z)로 컨볼루션 층에 대한 인자 분해를 확장하여 채널별 분리(disentanglement)를 가능하게 한다.
세 가지 아키텍처를 비교한다: 시암쌘 baselines, 시암쌘 learnet, 단일 스트림 learnet, 그리고 인자 분해 컨볼루션을 포함한 변형을 포함한다.

실험 결과

연구 질문

RQ1깊은 네트워크가 단일 샘플에서 다른 네트워크의 모든 매개변수를 예측하여 진정한 원샷 판별 학습을 가능하게 할 수 있는가?
RQ2피드포워드 learnet가 exemplar-SVM과 같은 반복적 원샷 방법에 비해 실용적인 속도 이점을 제공하는가?
RQ3원샷 학습에서 동적 매개변수 예측의 타당성과 성능에 인자 분해 선형/컨볼루션 층이 어떤 영향을 미치는가?
RQ4learnet 기반 원샷 모델이 OCR과 추적 작업에서 시암쌘 임베딩과 경쟁력이 있는가?

주요 결과

Omniglot OCR에서 단일 스트림 learnet가 가중치 L1 거리를 사용하여 28.6% 오차를 달성했고, 표준 시암쌘 대기와 비교해 우수했다.
동적 예측 컨볼루션 필터를 사용하는 learnet은 VOT2015 벤치마크에서 추적 성능을 향상시킬 수 있으며, 종종 최신 추적기보다 우위를 차지하면서 실시간(<60 FPS)을 달성한다.
인자 분해 컨볼루션 층은 이 설정에서 OCR 작업의 정확도에 심각한 영향을 주지 않으면서 매개변수 예측 부담을 줄인다.
제안된 분해를 사용하면 단일 샘플에서 전체 계층 매개변수를 예측하는 것이 가능하며, 기계적(parameter) 예측의 2차원 확장 문제를 피한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.