[논문 리뷰] Learning feed-forward one-shot learners
이 논문은 learnet을 도입합니다. learnet은 단일 샘플에서 pupil 네트워크의 매개변수를 예측하는 두 번째 신경망으로, 분류 및 추적을 위한 진정한 피드포워드(one-shot) 학습을 가능하게 합니다. 예측된 매개변수 공간을 합리적으로 유지하기 위해 인자로 분해된 선형 및 컨볼루션 층을 사용하며, Omniglot OCR 및 시각 객체 추적 벤치마크에서 경쟁력 있는 결과를 보입니다.
One-shot learning is usually tackled by using generative models or discriminative embeddings. Discriminative methods based on deep learning, which are very effective in other learning scenarios, are ill-suited for one-shot learning as they need large amounts of training data. In this paper, we propose a method to learn the parameters of a deep model in one shot. We construct the learner as a second deep network, called a learnet, which predicts the parameters of a pupil network from a single exemplar. In this manner we obtain an efficient feed-forward one-shot learner, trained end-to-end by minimizing a one-shot classification objective in a learning to learn formulation. In order to make the construction feasible, we propose a number of factorizations of the parameters of the pupil network. We demonstrate encouraging results by learning characters from single exemplars in Omniglot, and by tracking visual objects from a single initial exemplar in the Visual Object Tracking benchmark.
연구 동기 및 목표
- 일회성 최적화 없이 원샷 판별 학습의 병목을 동기부여하고 해결한다.
- 단일 샘플에서 pupil 네트워크의 모든 매개변수를 예측하는 메타 학습 네트워크(learnet)를 제안한다.
- 원샷 매개변수 예측을 가능하게 하기 위해 대각선/비공유(parameter factorization)를 개발한다.
- OCR(Omniglot) 및 시각 객체 추적 벤치마크에서 실행 가능성과 경쟁력을 입증한다.
제안 방법
- 원샷 학습을 exemplar z를 매개변수 W로 매핑하는 learnet를 통해 동적 매개변수 예측으로 구성한다(φ(·;W)).
- learnet를 x, z, ℓ의 삼중항에 걸친 원샷 목표를 최소화하여 엔드-투-엔드로 학습한다. ℓ은 같은/다른 클래스임을 나타낸다.
- 가중치 행렬을 M′ diag(w(z)) M으로 분해하여 파라미터 폭발을 해결하고 learnet 출력이 dk에서 선형의 d 또는 합성층의 경우 f^2 d로 감소하도록 한다.
- y = M′ * w(z) *d M * x + b(z)로 컨볼루션 층에 대한 인자 분해를 확장하여 채널별 분리(disentanglement)를 가능하게 한다.
- 세 가지 아키텍처를 비교한다: 시암쌘 baselines, 시암쌘 learnet, 단일 스트림 learnet, 그리고 인자 분해 컨볼루션을 포함한 변형을 포함한다.
실험 결과
연구 질문
- RQ1깊은 네트워크가 단일 샘플에서 다른 네트워크의 모든 매개변수를 예측하여 진정한 원샷 판별 학습을 가능하게 할 수 있는가?
- RQ2피드포워드 learnet가 exemplar-SVM과 같은 반복적 원샷 방법에 비해 실용적인 속도 이점을 제공하는가?
- RQ3원샷 학습에서 동적 매개변수 예측의 타당성과 성능에 인자 분해 선형/컨볼루션 층이 어떤 영향을 미치는가?
- RQ4learnet 기반 원샷 모델이 OCR과 추적 작업에서 시암쌘 임베딩과 경쟁력이 있는가?
주요 결과
- Omniglot OCR에서 단일 스트림 learnet가 가중치 L1 거리를 사용하여 28.6% 오차를 달성했고, 표준 시암쌘 대기와 비교해 우수했다.
- 동적 예측 컨볼루션 필터를 사용하는 learnet은 VOT2015 벤치마크에서 추적 성능을 향상시킬 수 있으며, 종종 최신 추적기보다 우위를 차지하면서 실시간(<60 FPS)을 달성한다.
- 인자 분해 컨볼루션 층은 이 설정에서 OCR 작업의 정확도에 심각한 영향을 주지 않으면서 매개변수 예측 부담을 줄인다.
- 제안된 분해를 사용하면 단일 샘플에서 전체 계층 매개변수를 예측하는 것이 가능하며, 기계적(parameter) 예측의 2차원 확장 문제를 피한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.