QUICK REVIEW

[논문 리뷰] Superposition of many models into one

Brian Cheung, A. L. Terekhov|arXiv (Cornell University)|2019. 02. 14.

Domain Adaptation and Few-Shot Learning참고 문헌 27인용 수 46

한 줄 요약

이 논문은 작업별 컨텍스트 벡터를 사용하여 단일 신경망 내에 다중 작업별 모델을 저장하고, 훈련 중 간섭을 최소화하면서 각 모델을 검색할 수 있도록 파라미터 중첩(parameter superposition)을 제안한다.

ABSTRACT

We present a method for storing multiple models within a single set of parameters. Models can coexist in superposition and still be retrieved individually. In experiments with neural networks, we show that a surprisingly large number of models can be effectively stored within a single parameter instance. Furthermore, each of these models can undergo thousands of training steps without significantly interfering with other models within the superposition. This approach may be viewed as the online complement of compression: rather than reducing the size of a network after training, we make use of the unrealized capacity of a network during training.

연구 동기 및 목표

훈련 중 과말파라미터화(over-parameterization)를 활용해 단일 매개변수 세트에서 여러 작업을 학습하려는 동기를 제시한다.
메모리 친화적인 방식으로 여러 모델을 하나의 네트워크에 저장하기 위한 파라미터 중첩을 도입한다.
온라인 학습 시 간섭 및 재앙적 기억 상실에 대한 강건성을 입증한다.
ResNet와 같은 최신 네트워크를 포함한 완전 연결 및 합성곱 아키텍처에의 적용 가능성을 보인다.

제안 방법

W = sum_i Wi Ci^{-1} (Equation 1)로 K 개의 작업 모델 W1,...,WK를 단일 가중치 행렬 W에 저장한다.
Ŵk = WCk = sum_i Wi(Ci^{-1}Ck) (Equation 2)로 작업 k의 파라미터를 검색한다.
yk = W(Ck x) 또는 동등하게 yk = W(Ck x) (Equation 3)로 작업 출력을 계산한다.
간섭을 최소화하기 위해 대각형, 복소수, 회전 기반 변환으로 컨텍스트를 적용하고 각 컨텍스트의 매개변수 수를 논의한다(Table 1).
각 층의 선형 변환과 합성곱 커널에 컨텍스트 곱셈을 적용하여 PSP를 신경망에 확장한다(Equation 7 및 Equation 8).
간섭 및 검색 노이즈를 분석하며 기대값에서의 편향 없는 검색과 분산이 약 1/M에 비례하는 경향을 보이는 것을 보이는 proposition(Apendix A).

실험 결과

연구 질문

RQ1훈련 중 큰 간섭 없이 동일 매개변수 세트에 여러 작업별 모델을 저장할 수 있는가?
RQ2컨텍스트의 선택(이진, 복소수, 회전, 대각)이 메모리 효율성 및 모델 간 간섭에 어떤 영향을 미치는가?
RQ3온라인 학습에서 입력 분포가 바뀌는 경우(예: MNIST를 순열, MNIST/Fashion-MNIST의 회전) 및 출력 분포가 바뀌는 경우(iCIFAR)에서 PSP가 재앙적 기억상실을 완화할 수 있는가?
RQ4PSP가 ResNet과 같은 현대적 아키텍처 및 합성곱 신경망과 호환되는가?
RQ5컨텍스트를 자동으로 조정하거나 명시적 작업 식별 의존도를 줄일 수 있는가?

주요 결과

PSP는 작업당 수천 번의 훈련 단계 동안 간섭이 거의 없는 상태에서 단일 매개변수 인스턴스 내에 다수의 모델 저장을 가능하게 한다.
이진, 복소수, 회전 기반 컨텍스트는 메모리 비용과 검색 품질 간에 서로 다른 절충을 제공하며, 회전은 더 높은 매개변수 비용을 동반하면서 간섭 감소를 최적화한다(Table 1).
PSP는 permuting MNIST에서 표준 기준선 및 기존 연속학습 방법(EWC, SI)보다 재앙적 기억상실을 크게 완화한다.
PSP는 입력 분포 변화(permuted/rotating MNIST 및 rotating Fashion-MNIST) 및 출력 분포 변화(iCIFAR)에 대해 여전히 견고하다.
PSP는 ResNet-18과 같은 현대 네트워크에 확장 가능하며 순차적으로 서로 다른 CIFAR-100 클래스 세트를 학습한 후 CIFAR-10에서 성능을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.