[논문 리뷰] Unsupervised Domain Adaptation by Backpropagation
요약: 라벨 예측기를 학습하는 동안 도메인-불변 특성을 학습하기 위해 그래디언트 역전 계층을 도입하여 표준 역전방향传播으로 깊은 네트워크의 비지도 도메인 적응을 가능하게 하며, Office 데이터셋에서 최첨단 성능 및 숫자/합성-실험 간 전이에서 강한 결과를 얻는다.
Top-performing deep architectures are trained on massive amounts of labeled data. In the absence of labeled data for a certain task, domain adaptation often provides an attractive option given that labeled data of similar nature but from a different domain (e.g. synthetic images) are available. Here, we propose a new approach to domain adaptation in deep architectures that can be trained on large amount of labeled data from the source domain and large amount of unlabeled data from the target domain (no labeled target-domain data is necessary). As the training progresses, the approach promotes the emergence of "deep" features that are (i) discriminative for the main learning task on the source domain and (ii) invariant with respect to the shift between the domains. We show that this adaptation behaviour can be achieved in almost any feed-forward model by augmenting it with few standard layers and a simple new gradient reversal layer. The resulting augmented architecture can be trained using standard backpropagation. Overall, the approach can be implemented with little effort using any of the deep-learning packages. The method performs very well in a series of image classification experiments, achieving adaptation effect in the presence of big domain shifts and outperforming previous state-of-the-art on Office datasets.
연구 동기 및 목표
- 목적 도메인 레이블이 사용 불가능한 상황에서 도메인 적응을 촉진하고 풍부한 라벨이 있는 소스 도메인 데이터를 활용합니다.
- 도메인 적응을 딥 피처 학습에 내재화하여 구분 가능하면서도 도메인 불변인 표현을 생성합니다.
- 그래디언트 역전 계층을 기존 아키텍처에 통합하는 간단한 SGD-호환 학습 절차를 개발합니다.
제안 방법
- 세 부분 네트워크를 제안합니다: 특징 추출기 G_f, 레이블 예측기 G_y, 그리고 G_f의 출력에서 작동하는 도메인 분류기 G_d.
- G_f와 G_d 사이에 그래디언트 역전 계층을 도입하여 역전전파 도메인 손실을 -λ로 곱해 도메인 불변 특성을 장려합니다.
- 레이블 손실을 소스 데이터에서 최소화하고 도메인 손실을 최대화하는 샤들-포인트 목표를 λ로 제어하여 형성합니다.
- 그래디언트 역전 계층을 거친 역전파를 사용한 표준 SGD 스타일 업데이트로 최적화하여 도메인 불변 특성 공간을 생성합니다.
- HΔH 거리 기반 일반화 경계와 이 접근법을 연결하고 도메인 분류기의 성능이 도메인 간 차이를 제약한다는 점을 보입니다.
실험 결과
연구 질문
- RQ1깊은 네트워크를 엔드 투 엔드로 학습시켜 구분 가능한 레이블과 도메인 불변성을 공동으로 최적화하는 비지도 도메인 적응이 가능합까?
- RQ2그래디언트 역전 메커니즘을 도입하면 학습 중 소스 도메인과 타깃 도메인 간의 특징 분포 정렬이 효과적으로 이루어지나요?
- RQ3제안된 방법이 표준 도메인 적응 벤치마크에서 기존 방법과 비교해 어떤 성능을 보이나요?
- RQ4합성-실제 및 크로스 도메인 시프트를 가진 실제 데이터셋(예: Office 데이터셋)에 이 방법을 적용할 수 있나요?
주요 결과
| 방법 | 소스 | MNIST | Syn Numbers | SVHN | Syn Signs | 타깃 | MNIST-M | SVHN | MNIST | GTSRB |
|---|---|---|---|---|---|---|---|---|---|---|
| 소스만 | MNIST | 0.5749 | - | - | - | MNIST-M | - | - | - | - |
| SA (Fernando et al., 2013) | MNIST | 0.6078 (7.9%) | 0.8672 (1.3%) | - | - | MNIST-M | - | - | - | - |
| 제안된 접근법 | MNIST | 0.8149 (57.9%) | 0.9048 (66.1%) | 0.7107 (29.3%) | 0.8866 (56.7%) | MNIST-M | - | - | - | - |
| 타깃에서 학습 | - | 0.9891 | 0.9244 | 0.9951 | 0.9987 | - | - | - | - | - |
| 소스만 | Syn Numbers | - | 0.8665 | - | - | SVHN | - | - | - | - |
| SA (Fernando et al., 2013) | Syn Numbers | - | 0.8672 (1.3%) | - | - | SVHN | - | - | - | - |
| 제안된 접근법 | Syn Numbers | - | 0.9048 (66.1%) | 0.7107 (29.3%) | 0.8866 (56.7%) | SVHN | - | - | - | - |
| 타깃에서 학습 | - | - | - | - | - | SVHN | 0.9244 | - | - | - |
| 소스만 | Syn Signs | - | - | - | 0.7400 | GTSRB | - | - | - | - |
| SA (Fernando et al., 2013) | Syn Signs | - | - | - | 0.7635 (9.1%) | GTSRB | - | - | - | - |
| 제안된 접근법 | Syn Signs | - | - | - | 0.8866 (56.7%) | GTSRB | - | - | - | - |
| 타깃에서 학습 | - | - | - | - | GTSRB | 0.9987 | - | - | - | - |
| 소스만 | Office (Amazon→DSLR) | - | - | - | - | DSLR | 0.433? | - | - | - |
| SA (Fernando et al., 2013) | Office (Amazon→DSLR) | - | - | - | - | DSLR | 0.450 | - | - | - |
| 제안된 접근법 | Office (Amazon→DSLR) | - | - | - | - | DSLR | 0.673±0.017 | - | - | - |
| 소스만 | Office (Amazon→Webcam) | - | - | - | - | Webcam | 0.464? | - | - | - |
| 제안된 접근법 | Office (Amazon→Webcam) | - | - | - | - | Webcam | 0.673±0.017 | - | - | - |
- 소스 전용 모델에 비해 다수의 크로스 도메인 작업에서 상당한 개선을 달성합니다.
- MNIST에서 MNIST-M로의 경우, 방법은 0.8149 정확도에 도달하고 베이스라인 0.5749를 상회하며 SA 베이스라인을 능가합니다.
- Syn Numbers에서 SVHN로의 경우, 방법은 0.9048 정밀도에 도달하고 베이스라인 0.8665를 상회하며 SA를 능가합니다.
- SVHN에서 MNIST로의 경우, 방법은 0.7107 정확도에 도달하고 베이스라인 0.5919를 상회하며 SA를 능가합니다.
- Syn Signs에서 GTSRB로의 경우, 방법은 0.8866 정확도에 도달하고 베이스라인 0.7400를 상회하며 SA를 능가합니다.
- Office 데이터셋 실험에서 제안된 방법은 0.673±0.017 (Amazon→DSLR/Webcam) 및 0.940±0.008 (DSLR→Webcam) 및 0.937±0.010 (Webcam→DSLR)으로, 이전 방법을 능가합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.