QUICK REVIEW

[논문 리뷰] LinkedIn's Audience Engagements API: A Privacy Preserving Data Analytics System at Scale

Ryan Rogers, Subbu Subramaniam|arXiv (Cornell University)|2020. 02. 14.

Privacy-Preserving Technologies in Data참고 문헌 21인용 수 28

한 줄 요약

이 논문은 LinkedIn의 Audience Engagements API를 위한 대규모, 프라이버시 보장 분석 시스템을 제시하며, 사용자 데이터를 보호하면서도 실시간 마케팅 인사이트를 가능하게 하는 비밀성 보장 알고리즘을 사용한다. 최신의 DP 알고리즘과 중앙집중식 프라이버시 예산 관리 서비스를 통합함으로써, 시스템은 엄격한 사용자 수준의 프라이버시 보장을 구현하여 분산된 데이터 센터를 통해 총 (34.9, 7×10⁻⁹)-DP 월간 프라이버시 예산을 달성한다.

ABSTRACT

We present a privacy system that leverages differential privacy to protect LinkedIn members' data while also providing audience engagement insights to enable marketing analytics related applications. We detail the differentially private algorithms and other privacy safeguards used to provide results that can be used with existing real-time data analytics platforms, specifically with the open sourced Pinot system. Our privacy system provides user-level privacy guarantees. As part of our privacy system, we include a budget management service that enforces a strict differential privacy budget on the returned results to the analyst. This budget management service brings together the latest research in differential privacy into a product to maintain utility given a fixed differential privacy budget.

연구 동기 및 목표

마케터들이 실시간으로 집계된 대상자 참여 분석을 가능하게 하면서도, 회원의 프라이버시를 철저히 보호하기 위해.
집계된 데이터에서도 개인을 재식별할 수 있는 차등 공격의 위험을 해결하기 위해.
차등적 프라이버시 하에서 데이터 유틸리티와 철저한 프라이버시 제약 조건을 균형 있게 설계하기 위해.
여러 분석가와 데이터 센터를 통해 프라이버시 손실을 추적하고 강제화할 수 있는 확장성 있고 분산된 프라이버시 예산 관리 시스템을 구현하기 위해.
유사한 시스템을 구현하는 실무자들이 매개변수 선택에 대해 투명성과 지침을 확보할 수 있도록 하기 위해.

제안 방법

히스토ограм과 상위-k 결과 공개를 위한 특별히 설계된 비밀성 보장 알고리즘을 활용하여 사용자 수준의 프라이버시 보장을 확보한다.
실시간 분산 OLAP 데이터베이스인 Apache Pinot과 통합하여 대규모 분석에서 저지연 시간을 달성한다.
분석가당 '정보 예산'과 '호출 예산'이라는 이중 예산 메커니즘을 도입하여, 각 쿼리 결과마다 프라이버시 손실을 통제한다.
최신의 차등적 프라이버시 이론에서 유도된 복합성 경계를 적용하여, 다중 쿼리 간 누적 프라이버시 손실을 엄격히 제한한다.
메모이제이션과 데이터 변화율을 활용하여, 동일한 레코드에 대해 반복적으로 쿼리가 수행될 경우의 종단 간 프라이버시 누출을 최소화한다.
다양한 데이터 센터 간 동기화를 통해 실시간으로 글로벌 프라이버시 예산을 강제화하는 중앙집중식 프라이버시 예산 관리 서비스를 구현한다.

실험 결과

연구 질문

RQ1Apache Pinot과 같은 실시간 분산 OLAP 시스템에서 차등적 프라이버시를 어떻게 효과적으로 확장하여 대규모 분석을 지원할 수 있는가?
RQ2여러 분석가와 분산된 데이터 센터를 통해 종단 간 프라이버시 예산을 강제하기 위해 필요한 시스템 아키텍처는 무엇인가?
RQ3실제 환경에서 프라이버시 보장을 강화하면서도 유틸리티를 극대화하기 위해 매개변수를 어떻게 선택할 수 있는가?
RQ4실세계 데이터 분석 플랫폼에서 글로벌 차등적 프라이버시 모델과 로컬 차등적 프라이버시 모델을 사용할 경우의 실용적 영향은 무엇인가?
RQ5동일한 사용자 데이터가 시간이 지남에 따라 반복적으로 쿼리될 경우 종단 간 프라이버시 공격를 어떻게 완화할 수 있는가?

주요 결과

시스템은 최종적으로 (34.9, 7×10⁻⁹)-DP 월간 프라이버시 보장을 달성하여, 모든 쿼리에서 모든 사용자에 대해 강력한 프라이버시 보장을 보장한다.
쿼리당 ε_per = 0.15 및 δ = 10⁻¹⁰를 적용함으로써, 프라이버시 유출 확률이 4억 분의 1 이하로 유지된다.
정보 예산과 호출 예산으로 구성된 이중 예산 메커니즘은 분석자가 추출할 수 있는 총 정보량을 효과적으로 제한하여 프라이버시 예산 고갈을 방지한다.
LinkedIn의 실제 데이터를 대상으로 한 실증 평가 결과, 엄격한 프라이버시 제약 조건 하에서도 시스템이 높은 유틸리티를 유지함을 입증했다.
Apache Pinot과의 통합을 통해 프라이버시나 확장성에 손상 없이 저지연 시간의 실시간 분석을 구현할 수 있었다.
시스템의 설계는 매개변수의 합리화와 투명성을 가능하게 하여, 다른 조직이 실무 환경에서 차등적 프라이버시를 도입할 수 있는 실용적인 프레임워크를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.