[논문 리뷰] Federated Adversarial Domain Adaptation
본 논문은 Federated Adversarial Domain Adaptation(FADA)을 제안하여 unsupervised federated domain adaptation을 수행합니다. 분산된 소스 도메인 간 표현을 대상 도메인과 정렬하기 위해 페더레이티드 설정에서 동적 주의(attention)와 표현 분리(disentanglement)를 활용합니다.
Federated learning improves data privacy and efficiency in machine learning performed over networks of distributed devices, such as mobile phones, IoT and wearable devices, etc. Yet models trained with federated learning can still fail to generalize to new devices due to the problem of domain shift. Domain shift occurs when the labeled data collected by source nodes statistically differs from the target node's unlabeled data. In this work, we present a principled approach to the problem of federated domain adaptation, which aims to align the representations learned among the different nodes with the data distribution of the target node. Our approach extends adversarial adaptation techniques to the constraints of the federated setting. In addition, we devise a dynamic attention mechanism and leverage feature disentanglement to enhance knowledge transfer. Empirically, we perform extensive experiments on several image and text classification tasks and show promising results under unsupervised federated domain adaptation setting.
연구 동기 및 목표
- 데이터를 도메인 간에 공유할 수 없는 상황에서 UFDA(unsupervised federated domain adaptation)를 동기부여하고 형식화한다.
- UFDA에 대한 일반화 경계를 도출하여 알고리즘 설계에 가이드를 제공한다.
- 페더레이션 설정에서 적대적 정렬(adversarial alignment)과 특징 분리를 통해 도메인 시프트를 최소화하도록 FADA를 제안한다.
제안 방법
- 소스 도메인의 기여도에 따라 대상 도메인으로의 기여를 기반으로 가중치를 두기 위한 dynamic attention을 개발한다.
- 데이터를 공유하지 않고 도메인별 로컬 특징 추출기와 글로벌 판별기를 학습시켜 페더레이션 적대적 정렬을 구현한다.
- 상호 정보 추정기(MINE)를 활용하여 표현을 도메인 불변(domain-invariant) 구성요소와 도메인 특이적(domain-specific) 구성요소로 분리하는 특징 분리를 적용한다.
- UFDA에서 소스와 대상 분포를 정렬하기 위해 도메인 식별자와 생성기를 이용한 2단계 적대적 목표를 사용한다.
- 표현의 무결성을 유지하기 위한 재구성 손실을 도입하고 엔드 투 엔드 SGD 최적화 루프(Algorithm 1)를 따른다.
- 가용 차이(gap) 통계를 활용해 소스 기여도를 측정하고 집계에 대한 동적 그래디언트 마스크를 계산한다.
실험 결과
연구 질문
- RQ1데이터가 로컬 소스에 남아 있고 그래디언트만 공유되는 상황에서 UFDA를 어떻게 실제로 달성할 수 있는가?
- RQ2적대적 도메인 정렬과 표현 분리가 페더레이션 설정에서 도메인 시프트를 감소시킬 수 있는가?
- RQ3다양한 소스 도메인을 집계할 때 동적 주의가 가중치 형성에 어떤 영향을 미치는가?
- RQ4FADA는 UFDA하에서 이미지 및 텍스트 분류 작업에서 어떻게 성능을 발휘하는가?
- RQ5UFDA에서 성능을 한정하는 이론적 보장은 무엇인가?
주요 결과
| Models | mt,sv,sy,up → mm | mm,sv,sy,up → mt | mt,mm,sy,up → sv | mt,mm,sv,up → sy | mt,mm,sv,sy → up | Avg | |
|---|---|---|---|---|---|---|
| Source Only | 63.3 ± 0.7 | 90.5 ± 0.8 | 88.7 ± 0.8 | 63.5 ± 0.9 | 82.4 ± 0.6 | 77.7 |
| DAN | 63.7 ± 0.7 | 96.3 ± 0.5 | 94.2 ± 0.8 | 62.4 ± 0.7 | 85.4 ± 0.7 | 80.4 |
| DANN | 71.3 ± 0.5 | 97.6 ± 0.7 | 92.3 ± 0.8 | 63.4 ± 0.7 | 85.3 ± 0.8 | 82.1 |
| Source Only (second block) | 49.6 ± 0.8 | 75.4 ± 1.3 | 22.7 ± 0.9 | 44.3 ± 0.7 | 75.5 ± 1.4 | 53.5 |
| AdaBN | 59.3 ± 0.8 | 75.3 ± 0.7 | 34.2 ± 0.6 | 59.7 ± 0.7 | 87.1 ± 0.9 | 61.3 |
| AutoDIAL | 60.7 ± 1.6 | 76.8 ± 0.9 | 32.4 ± 0.5 | 58.7 ± 1.2 | 90.3 ± 0.9 | 65.8 |
| f -DANN | 59.5 ± 0.6 | 86.1 ± 1.1 | 44.3 ± 0.6 | 53.4 ± 0.9 | 89.7 ± 0.9 | 66.6 |
| f -DAN | 57.5 ± 0.8 | 86.4 ± 0.7 | 45.3 ± 0.7 | 58.4 ± 0.7 | 90.8 ± 1.1 | 67.7 |
| FADA + attention ( I ) | 44.2 ± 0.7 | 90.5 ± 0.8 | 27.8 ± 0.5 | 55.6 ± 0.8 | 88.3 ± 1.2 | 61.3 |
| FADA + adversarial ( II ) | 58.2 ± 0.8 | 92.5 ± 0.9 | 48.3 ± 0.6 | 62.1 ± 0.5 | 90.6 ± 1.1 | 70.3 |
| FADA + disentangle ( III ) | 62.5 ± 0.7 | 91.4 ± 0.7 | 50.5 ± 0.3 | 71.8 ± 0.5 | 91.7 ± 1.0 | 73.6 |
- FADA가 전체 구성 요소(동적 주의(attention), 적대적 정렬, 및 분리)를 모두 포함할 때 Digit-Five에서 평균 성능이 가장 높다(표 1의 73.6%).
- 동적 주의와 적대적 정렬은 각각 베이스라인보다 성능을 개선하며, 분리 변형이 강력한 이득을 제공한다(모델 III) — 여러 작업에서.
- UFDA는 데이터를 중앙집중화할 수 없을 때 다소 제한적인 성능으로 나타나는 중앙집중형 다소어 DA보다 페더레이션 설정에서 더 어려운 문제이다.
- FADA는 f-DANN 및 f-DAN과 비교해 학습된 피처의 클래스 내부 분산은 더 작고 클래스 간 분산은 더 크게 나타나, t-SNE(그림 3)로 시각화할 때 확인된다.
- Office-Caltech10, DomainNet, 및 Amazon Review 데이터셋 전반에 걸쳐, 분리(disentangle)를 포함한 FADA가 강력한 베이스라인 대비 정확도를 일관되게 향상시킨다(표 2–4).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.