QUICK REVIEW

[논문 리뷰] DELTA: DEep Learning Transfer using Feature Map with Attention for Convolutional Networks

Xingjian Li, Haoyi Xiong|arXiv (Cornell University)|2019. 01. 26.

Domain Adaptation and Few-Shot Learning참고 문헌 23인용 수 88

한 줄 요약

DELTA는 감독된 주의 메커니즘을 통해 대상 네트워크와 소스 네트워크의 외부 계층 피처 맵을 정렬하여 전달 학습을 정규화하고, L2 및 L2-SP 기반선 대비 미세조정 성능을 향상시킵니다.

ABSTRACT

Transfer learning through fine-tuning a pre-trained neural network with an extremely large dataset, such as ImageNet, can significantly accelerate training while the accuracy is frequently bottlenecked by the limited dataset size of the new target task. To solve the problem, some regularization methods, constraining the outer layer weights of the target network using the starting point as references (SPAR), have been studied. In this paper, we propose a novel regularized transfer learning framework DELTA, namely DEep Learning Transfer using Feature Map with Attention. Instead of constraining the weights of neural network, DELTA aims to preserve the outer layer outputs of the target network. Specifically, in addition to minimizing the empirical loss, DELTA intends to align the outer layer outputs of two networks, through constraining a subset of feature maps that are precisely selected by attention that has been learned in an supervised learning manner. We evaluate DELTA with the state-of-the-art algorithms, including L2 and L2-SP. The experiment results show that our proposed method outperforms these baselines with higher accuracy for new tasks.

연구 동기 및 목표

전이 학습에서 가중치 간 거리 이상의 규제를 통해 작은 타깃 데이터셋에서 일반화 성능을 향상시키려는 동기를 제시한다.
소스 네트워크와 타깃 네트워크 간의 외부 계층 피처 맵을 정렬하는 행동 기반 정규화를 제안한다.
판별력에 따라 피처 맵의 가중치를 매기기 위한 감독된 주의 메커니즘을 도입한다.
최적화를 가속하고 미세 조정을 안정시키기 위해 SPAR에서 영감을 받은 근접 항을 도입한다.

제안 방법

각 학습 샘플에 대해 소스 네트워크와 타깃 네트워크의 외부 층 피처 맵 간 거리를 측정하는 정규화를 정의한다.
합성곱 필터와 ReLU를 통해 피처 맵 FM_j를 계산하고, 이를 FM_j(z, w, x)로 벡터화한다.
각 피처 맵의 기여도를 j번째 필터를 제거했을 때의 성능 손실에 기반한 감독된 주의에서 도출된 W_j로 가중한다(손실 차이에 대한 softmax).
총 손실을 경험적 손실과 가중된 행동 규제 Omega(ω, ω*, x, y, z) 및 비공개 파라미터 근접 항(SPAR)을 더한 형태로 정식화한다.
L2-FE 기준선을 사용하여 주의된 중요도를 추정하고 주의 가중치를 계산하며, 최적화를 가속하기 위해 SPAR로 학습을 수행한다.
원시 가중치가 아니라 피처 맵을 추출하고 정규화하여 판별적 행동의 전달을 촉진한다.

실험 결과

연구 질문

RQ1소스 네트워크와 타깃 네트워크 사이의 외부 계층 피처 맵(행동)을 정렬하는 것이 가중치 간 거리 정규화보다 더 나은 전달 성능을 낼 수 있는가?
RQ2피처 맵의 가중치를 다시 매기도록 하는 감독된 주의 메커니즘을 도입하는 것이 작은 타깃 데이터셋에서 CNN을 미세 조정할 때 전달 학습을 개선하는가?
RQ3다양한 비전 작업과 기본 아키텍처에서 DELTA가 L2 및 L2-SP 정규화와 어떻게 비교되는가?
RQ4미세 조정 중 주의(attention)가 활성화 맵과 비활성 채널 재사용의 개념에 미치는 영향은 무엇인가?

주요 결과

Dataset	Model	L2	L2-SP	DELTA (w/o ATT)	DELTA
MIT Indoors 67	ResNet-101	83.7	85.1	85.3	85.5
Stanford Dogs 120	ResNet-101	83.3	88.3	88.3	88.7
Caltech 256-30	ResNet-101	84.7	85.4	85.7	86.6
Caltech 256-60	ResNet-101	87.2	87.2	87.6	88.7
CUB-200-2011	ResNet-101	78.4	79.5	78.9	80.5
Food-101	ResNet-101	85.3	86.4	85.9	86.3
MIT Indoors 67	Inception-V3	74.8	74.6	76.9	78.1
Stanford Dogs 120	Inception-V3	88.6	89.4	88.7	88.7
Caltech 256-30	Inception-V3	83.6	83.3	83.4	84.9
Caltech 256-60	Inception-V3	85.8	85.3	85.1	86.8
CUB-200-2011	Inception-V3	74.3	75.2	74.5	76.5
Food-101	Inception-V3	76.9	75.9	76.2	80.8

DELTA는 MIT Indoors 67, Stanford Dogs 120, Caltech 256-30/60, CUB-200-2011, Food-101 데이터세트에서 상위-1 정확도 기준 L2 및 L2-SP baseline을 능가한다.
주의(attention)를 도입한 DELTA는 보고된 모든 데이터셋에서 주의가 없는 DELTA보다 더 높은 정확도를 보인다.
데이터 증강을 사용하면 DELTA의 정확도가 계속 향상되며 비교 대상 방법들 중 최상의 성능을 유지한다.
사례 연구에서 DELTA가 핵심 이미지 영역에 더 식별력 있는 활성화 초점(주의)을 생성하여 비활성 채널 재사용 가설을 뒷받침한다.
DELTA는 테스트 스케줄러 하에서 L2-SP보다 더 빠른 수렴과 더 매끄러운 학습 곡선을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.