QUICK REVIEW

[논문 리뷰] RSA: Byzantine-Robust Stochastic Aggregation Methods for Distributed Learning from Heterogeneous Datasets

Liping Li, Wei Xu|arXiv (Cornell University)|2018. 11. 09.

Stochastic Gradient Optimization Techniques참고 문헌 24인용 수 19

한 줄 요약

이 논문은 봉쇄 공격을 받는 환경에서 분산 학습을 위한 새로운 종류의 강건한 확률적 하향법인 RSA(비잔티노스-강건한 확률적 집계)를 제안한다. 여기서 작업자들은 임의의 악성 업데이트를 보낼 수 있다. 목적 함수에 ℓp-노름 정규화를 통합함으로써 RSA는 비잔티노스 작업자의 수에 비례한 오차로 near-optimal 해에 수렴하면서도, 비-독립 동일 분포(iid) 데이터 조건 하에서 표준 SGD와 동일한 수렴 속도를 유지한다. 이는 iid 가정이 필요 없으며 복잡한 기울기 선택 서브루틴도 필요로 하지 않는다.

ABSTRACT

In this paper, we propose a class of robust stochastic subgradient methods for distributed learning from heterogeneous datasets at presence of an unknown number of Byzantine workers. The Byzantine workers, during the learning process, may send arbitrary incorrect messages to the master due to data corruptions, communication failures or malicious attacks, and consequently bias the learned model. The key to the proposed methods is a regularization term incorporated with the objective function so as to robustify the learning task and mitigate the negative effects of Byzantine attacks. The resultant subgradient-based algorithms are termed Byzantine-Robust Stochastic Aggregation methods, justifying our acronym RSA used henceforth. In contrast to most of the existing algorithms, RSA does not rely on the assumption that the data are independent and identically distributed (i.i.d.) on the workers, and hence fits for a wider class of applications. Theoretically, we show that: i) RSA converges to a near-optimal solution with the learning error dependent on the number of Byzantine workers; ii) the convergence rate of RSA under Byzantine attacks is the same as that of the stochastic gradient descent method, which is free of Byzantine attacks. Numerically, experiments on real dataset corroborate the competitive performance of RSA and a complexity reduction compared to the state-of-the-art alternatives.

연구 동기 및 목표

분산 기계 학습에서 일부 작업자가 임의의 또는 손상된 업데이트를 전송할 수 있는 비잔티노스 실패 문제를 해결하기 위해.
실제 피어드 페더레이티드 학습 환경에서 흔히 성립하지 않는 독립 동일 분포(iid) 데이터 가정에 의존하지 않는 강건한 학습 프레임워크를 개발하기 위해.
알 수 없는 수의 작업자가 비잔티노스일 경우에도 near-optimal 해에 수렴하도록 보장하면서, 성능 저하가 오직 고장 난 작업자의 수에 비례하도록 하기 위해.
비잔티노스 공격 하에서도 표준 SGD와 동일한 수렴 속도를 달성함으로써 효율성을 유지하면서 강건성을 향상시키기 위해.

제안 방법

목적 함수에 마스터 모델에서의 이격도를 벌어지는 것을 방지하는 ℓp-노름 항을 포함한 정규화된 목적 함수를 도입하여, 비잔티노스 업데이트의 영향을 효과적으로 줄인다.
마스터는 강건성을 높이기 위해 정규화 항을 적용한 후 기울기를 집계하는 확률적 하향 기울기 강하 알고리즘을 사용한다.
정규화 항은 마스터 모델과 작업자 모델 간의 ℓp-노름 거리의 하향도에서 유도되며, 이는 임의의 비잔티노스 행동에 대한 강건성을 보장한다.
비용이 많이 들지 않는 기울기 선택 절차(예: 기하 평균 또는 Krum)를 피하기 위해 계산적으로 효율적인 알고리즘 설계가 이루어졌다.
수렴 분석은 기대 하향도 노름을 유계로 제한하고, 목적 함수에 대해 강凸성과 Lipschitz 연속성 가정을 사용한다.
다양한 ℓp-노름(예: ℓ1, ℓ2) 기반의 다수의 변형이 제안되었으며, 각각 특정한 강건성과 희박성의 상호 보완적 조건에 맞게 설계되었다.

실험 결과

연구 질문

RQ1작업자 간에 독립 동일 분포(iid) 데이터가 성립하지 않는 조건에서, 분산 학습 알고리즘이 비잔티노스 공격 하에서도 수렴성과 성능을 유지할 수 있는가?
RQ2비잔티노스 작업자의 수가 알려져 있지 않고 그들의 업데이트가 임의로 손상된 경우에도 강건성이 확보될 수 있는가?
RQ3비잔티노스 공격이 없는 조건에서, 강건 학습의 수렴 속도가 표준 SGD와 일치할 수 있는가?
RQ4비-독립 동일 분포 설정에서 학습 오차는 비잔티노스 작업자 수에 어떻게 의존하는가?

주요 결과

RSA는 비잔티노스 작업자 수에 비례하는 항으로 유계된 학습 오차를 가지며 near-optimal 해에 수렴한다.
비-비잔티노스 조건 하에서 RSA의 수렴 속도는 표준 확률적 기울기 하강법과 동일하여 효율성을 유지한다.
이 방법은 독립 동일 분포(iid) 데이터 가정이 필요 없어, 이질적인 데이터 분포를 가진 실제 피어드 페더레이티드 학습 환경에 적용 가능하다.
실제 데이터셋에 대한 수치 실험 결과, 최신 기술 대비 낮은 계산 복잡도로 경쟁 가능한 성능을 달성한다.
이론적 분석을 통해 비잔티노스 작업자가 유도하는 오차는 유계이며, 그 행동에 관계없이 오직 그 수에 의존함을 확인했다.
약한 규칙성 조건 하에서, 작업자의 일정 비율 이하가 비잔티노스일 경우에도 알고리즘이 안정성과 수렴성을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.