Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Transfer Learning with Joint Adaptation Networks

Mingsheng Long, Zhu Han|arXiv (Cornell University)|2016. 05. 21.
Domain Adaptation and Few-Shot Learning참고 문헌 42인용 수 115
한 줄 요약

JAN은 공동 분포 최대 평균 차이(JMMD) 기준으로 도메인 간 다층 활성화의 공동 분포를 정렬해 전이 가능한 특징을 학습하고, 훈련 중 JMMD를 극대화하는 적대적 변형 JAN-A를 도입한다.

ABSTRACT

Deep networks have been successfully applied to learn transferable features for adapting models from a source domain to a different target domain. In this paper, we present joint adaptation networks (JAN), which learn a transfer network by aligning the joint distributions of multiple domain-specific layers across domains based on a joint maximum mean discrepancy (JMMD) criterion. Adversarial training strategy is adopted to maximize JMMD such that the distributions of the source and target domains are made more distinguishable. Learning can be performed by stochastic gradient descent with the gradients computed by back-propagation in linear-time. Experiments testify that our model yields state of the art results on standard datasets.

연구 동기 및 목표

  • 도메인 간 입력과 라벨의 공동 분포가 이동하는 비지도 도메인 적응을 동기화한다.
  • 도메인 특화 층 간의 공동 활성화를 정렬하는 심층 학습 프레임워크를 개발한다.
  • 다층 특징에서 공동 분포 차이를 측정하고 최소화하기 위한 JMMD를 제안한다.
  • SGD와 호환되는 엔드 투 엔드 학습 가능한 방법으로 확장 가능한 딥 트랜스퍼 러닝을 제공한다.

제안 방법

  • JMMD를 사용하여 도메인 특화 층 간의 활성화의 공동 분포를 정렬하는 Joint Adaptation Networks(JAN)를 도입한다.
  • JMMD를 텐서 곱 RKHS에서의 경험적 공동 임베딩 간의 제곱 거리로 정의한다.
  • 미니 배치 SGD를 위한 JMMD의 선형 시간 비편향 추정기를 제공한다.
  • JAN에서 소스 분류 손실에 JMMD 페널티를 더해 특징과 분류기를 적응시키도록 한다.
  • 신경망 적대자(θ)를 추가하여 JMMD를 최대화하는 JAN-A를 제안하고, 이를 미니-맥스 목적에 형성한다.
  • 적응 가중치 λ의 점진적 스케줄링을 사용하여 학습의 안정화를 도모한다.

실험 결과

연구 질문

  • RQ1도메인 간 다층 활성화의 공동 분포를 정렬하는 것이 비지도 도메인 적응 성능을 향상시킬 수 있는가?
  • RQ2JMMD를 심층 네트워크에서 효율적으로 계산하고 최적화하여 엔드-투-엔드 학습이 가능하게 할 수 있는가?
  • RQ3적대적으로 JMMD를 최대화하는(JAN-A)가 표준 JAN에 비해 실질적인 이점을 제공하는가?
  • RQ4도메인 간 효과적으로 전이되도록 어떤 네트워크 층을 공동 적응해야 하는가?

주요 결과

  • JAN과 JAN-A는 Office-31 및 ImageCLEF-DA 벤치마크에서 여러 이전 방법과 비교하여 최첨단 결과를 달성한다.
  • JAN은 AlexNet과 ResNet 백본에서 전이 작업의 평균 정확도에서 DAN, RTN, RevGrad 등 여러 기준선보다 우수하다.
  • JAN과 JAN-A는 상위 층 활성화의 공동 분포 정렬의 이점을 보여준다(fc6,fc7,fc8 for AlexNet; pool5,fc for ResNet).
  • 비편향 선형 시간 JMMD 추정기는 심층 네트워크의 미니 배치 SGD와의 효율적 통합을 가능하게 한다.
  • 적대적 JMMD(JAN-A)는 JAN에 비해 비슷하거나 다소 향상된 성능을 제공하며, 학습 안정성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.