QUICK REVIEW

[논문 리뷰] Learning from History for Byzantine Robust Optimization

Sai Praneeth Karimireddy, Lie He|arXiv (Cornell University)|2020. 12. 18.

Privacy-Preserving Technologies in Data참고 문헌 57인용 수 24

한 줄 요약

이 논문은 기존의 강건한 집합 규칙에서 발생하는 심각한 실패 원인을 해결하기 위해 반복적 중심 클리핑과 워커 모멘타임을 도입함으로써, 바이저낸트에 강건한 최적화 프레임워크를 제안한다. 이는 바이저낸트 공격 하에서 표준 확률적 최적화에 대해 증명 가능하게 수렴하는 최초의 방법을 증명하며, 강력한 분포 가정이나 하이퍼파rameter 튜닝 없이도 노이즈 민감한 실패와 시간에 따라 연결된 공격에 모두 강건함을 입증한다.

ABSTRACT

Byzantine robustness has received significant attention recently given its importance for distributed and federated learning. In spite of this, we identify severe flaws in existing algorithms even when the data across the participants is identically distributed. First, we show realistic examples where current state of the art robust aggregation rules fail to converge even in the absence of any Byzantine attackers. Secondly, we prove that even if the aggregation rules may succeed in limiting the influence of the attackers in a single round, the attackers can couple their attacks across time eventually leading to divergence. To address these issues, we present two surprisingly simple strategies: a new robust iterative clipping procedure, and incorporating worker momentum to overcome time-coupled attacks. This is the first provably robust method for the standard stochastic optimization setting. Our code is open sourced at https://github.com/epfml/byzantine-robust-optimizer.

연구 동기 및 목표

기존의 바이저낸트에 강건한 집합 규칙가 기울기 노이즈 분포에 민감하여 악성 사용자가 없음에도 수렴하지 못하는 근본적인 결함을 규명하고 이를 해결하고자 한다.
기본 기록 무시 집합 규칙가 시간에 따라 연결된 공격을 받을 경우 누적되어 수렴하지 못함을 증명하고자 한다. 이는 수렴 실패를 초래한다.
확장 가능하고 기존 기법(예: 로컬 SGD 및 보안 집합)과 호환되며, 증명 가능하게 수렴하는 새로운 강건한 집합 규칙인 중심 클리핑을 설계하고자 한다.
워커 모멘타임이 시간에 따라 연결된 공격에 효과적으로 대응하여 분산을 줄이고 악성 편향을 시간에 따라 드러내는 방식으로 기여함을 보이고자 한다.
모멘타임 기반 분산 감소 기법을 바이저낸트에 강건한 집합기법과 융합하여 비볼록 최적화에서 최적의 수렴 속도를 달성하고자 한다.

제안 방법

기울기의 진정한 기울기 추정치를 기반으로 반복적으로 중심 클리핑을 수행하는 새로운 강건한 집합 규칙를 제안한다. 이는 노이즈 분포에 민감도를 낮추기 위해 진정한 기울기 추정치 주변에서 기울기를 적응적으로 클리핑한다.
워커 모멘타임을 도입하여 시간에 걸쳐 업데이트를 평균화함으로써, 정상 사용자들의 분산을 줄이고 바이저낸트 사용자로부터 유도된 시간에 따라 연결된 편향을 강조한다.
중심 클리핑과 모멘타임을 융합하여, L-스무쓰니스와 유한한 기울기 분산을 포함한 표준 가정 하에서 증명 가능하게 수렴함을 보였다.
비동기 업데이트 및 보안 집합과 같은 기존 분산 학습 기법과의 호환성을 확보하여 실세계 적용 가능성을 높였다.
각 라운드당 O(n)의 계산 및 통신만을 요구하는 단순하고 확장 가능한 구현 방식을 사용하여 대규모 시스템에 실용적으로 적용 가능하도록 했다.
MNIST 및 CIFAR-10에서의 실험적 평가를 통해 가우시안 공격 및 적응형 공격에 대한 강건성을 검증하였으며, Safeguard (Allen-Zhu 등, 2021)와의 비교를 포함하였다.

실험 결과

연구 질문

RQ1기존의 강건한 집합 규칙는 기울기 노이즈 분포에 민감하여 악성 사용자가 없음에도 불구하고 수렴하지 못할 수 있는가?
RQ2기본 기록을 무시하는 어떤 강건한 최적화 알고리즘에도 시간에 따라 연결된 공격을 구성하여 수렴 실패를 유도할 수 있는가?
RQ3반복적 중심 클리핑은 중앙값 기반 또는 잘라내기 평균 집합기법의 대체로 확장 가능하고 증명 가능하게 강건한가?
RQ4워커 모멘타임은 시간에 따라 연결된 공격을 효과적으로 방어하여 지속적인 편향을 노출시키는가?
RQ5모멘타임 기반 분산 감소 기법을 바이저낸트에 강건한 집합기법과 융합하면 비볼록 설정에서 최적의 수렴 속도를 달성할 수 있는가?

주요 결과

논문은 기록 정보를 무시하는 모든 집합 규칙가 시간에 따라 연결된 공격에 증명 가능하게 취약함을 증명한다. 이러한 공격은 라운드에 걸쳐 누적되어 개별 라운드가 안전해 보여도 수렴하지 못하게 한다.
중심 클리핑(CC)은 표준편차 10^8인 가우시안 노이즈와 같은 큰 크기의 공격을 효과적으로 방어하여 NaN을 방지하고, 다른 방법이 실패하는 상황에서도 수렴을 보장한다.
실험 결과, CC는 Safeguard (Allen-Zhu 등, 2021)보다 더 좋은 수렴 성능과 정확도를 달성하였으며, 특히 적응형 공격 하에서 τ0나 τ1와 같은 하이퍼파rameter 튜닝 없이도 성능을 유의미하게 높였다.
CC와 모멘타임의 조합은 표준 가정 하에서 정적 점으로의 수렴을 보장하며, 비볼록 최적화에서 최적의 수렴 속도를 달성한다.
실험 결과, CC는 로컬 SGD와 호환되며, 악성 사용자가 없을 경우 로컬 스텝 수를 늘일수록 MNIST에서 수렴성과 정확도가 향상됨을 보였다.
실제 조건에서도 강건함을 입증하였다: 일반적인 노이즈 분포(예: 가우시안)를 배제하지 않도록, 기울기가 거의 확실히 유한하다는 가정 없이도 기능한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.