QUICK REVIEW

[논문 리뷰] Corrupt Bandits for Preserving Local Privacy

Pratik Gajane, Tanguy Urvoy|arXiv (Cornell University)|2017. 08. 16.

Advanced Bandit Algorithms Research인용 수 19

한 줄 요약

이 논문은 보상이 알려진 부패 함수를 통해 확률적으로 변형되는 스 tochastic 다항 보상 문제를 위한 KL-UCB-CF와 Thompson Sampling-CF(TS-CF)라는 두 가지 밴딧 알고리즘을 제안한다. 저자들은 정보 이론적 하한선과 일치하는 문제에 의존하는 리그레트 한계를 확립하고, 부패 매개변수를 조정하여 제어 가능한 리그레트 증가를 동반한 국소적 차별적 프라이버시를 달성하는 방법을 보여준다.

ABSTRACT

We study a variant of the stochastic multi-armed bandit (MAB) problem in which the rewards are corrupted. In this framework, motivated by privacy preservation in online recommender systems, the goal is to maximize the sum of the (unobserved) rewards, based on the observation of transformation of these rewards through a stochastic corruption process with known parameters. We provide a lower bound on the expected regret of any bandit algorithm in this corrupted setting. We devise a frequentist algorithm, KLUCB-CF, and a Bayesian algorithm, TS-CF and give upper bounds on their regret. We also provide the appropriate corruption parameters to guarantee a desired level of local privacy and analyze how this impacts the regret. Finally, we present some experimental results that confirm our analysis.

연구 동기 및 목표

관측된 피드백이 진짜 보상의 확률적 변형으로 나타나는 부패된 피드백 하에서 다항 보상 문제를 다루는 것.
부분적이고 부패된 피드백에도 불구하고 누적 진짜 보상을 최대화하는 알고리즘을 설계하는 것.
온라인 추천 시스템에서 국소적 차별적 프라이버시를 달성하기 위한 피드백 부패의 메커니즘을 체계화하는 것.
제안된 알고리즘에 대해 문제에 의존하는 리그레트 한계를 유도하고 정보 이론적 하한선과 일치함을 보여주는 것.
프라이버시(부패 강도를 통해)와 학습 성능(리그레트) 사이의 트레이드오프를 정량화하는 것.

제안 방법

진짜 보상 평균 $ \mu_a $ 를 관측 피드백 평균 $ \lambda_a $ 로 매핑하는 알려진 평균 부패 함수 $ g_a $ 를 사용하여 부패된 밴딧 문제를 체계화한다.
관측 피드백 평균에 기반한 KL-거리 기반 신뢰구간을 사용하여 암호를 선택하는 빈도주의 알고리즘인 KL-UCB-CF를 제안한다.
피드백 평균에 대한 사후 분포에서 샘플링하고 진짜 보상 평균을 추정하기 위해 역 부패 함수를 사용하는 베이지안 알고리즘인 TS-CF를 도입한다.
부적절한 암호의 선택 횟수 기대값을 신뢰구간 위반 및 임계값 초과 사건으로 분해하여 리그레트의 상한을 도출한다.
피드백 신뢰구간이 최적 암호의 피드백 평균과 겹칠 경우 부적절한 암호 선택 확률을 제어하기 위해 새로운 기법적 보조정리를 사용한다.
부패 매개변수와 국소적 차별적 프라이버시 사이의 연결 고리를 설정하여 특정 부패 행렬이 원하는 프라이버시 수준을 달성할 수 있음을 보여준다.

실험 결과

연구 질문

RQ1확률적으로 부패된 피드백이 존재하는 상황에서 최적의 리그레트를 달성하는 밴딧 알고리즘을 설계할 수 있는가?
RQ2피드백 부패는 학습 성능와 사용자 프라이버시 사이의 근본적인 트레이드오프에 어떻게 영향을 미치는가?
RQ3부패된 밴딧 설정에서 리그레트에 대한 정보 이론적 하한선은 무엇인가?
RQ4알려진 부패 함수 하에서 이 하한선에 점점 수렴하는 알고리즘을 구성할 수 있는가?
RQ5원하는 수준의 국소적 차별적 프라이버시를 달성하면서 리그레트를 최소화하기 위해 부패 과정을 어떻게 조정할 수 있는가?

주요 결과

제안된 KL-UCB-CF와 TS-CF 알고리즘은 유도된 정보 이론적 하한선과 로그 인자까지 일치하는 문제에 의존하는 리그레트 한계를 달성한다.
두 알고리즘의 리그레트는 $ O(\log T) $ 로 스케일링되며, 이는 부패된 피드백 설정에서 점점 수렴하는 최적성임을 확인한다.
논문은 부적절한 암호의 평균 선택 횟수가 $ O(\log T) $ 로 유계임을 증명하며, 이 상수는 부패 함수와 그 단조성에 따라 달라진다.
피드백 신뢰구간이 최적 피드백 평균을 가로질칠 경우 부적절한 암호 선택 확률을 제어하는 새로운 기법적 보조정리를 도입한다. 이는 비단조성 부패 조건 하에서도 유효하다.
저자들은 특정 부패 행렬을 사용하여 국소적 차별적 프라이버시를 달성할 수 있음을 입증하며, 리그레트는 프라이버시 매개변수에 비례해 증가함을 보여준다.
실험 결과는 이론적 분석을 확인하며, 다양한 부패 설정 하에서 KL-UCB-CF와 TS-CF가 누적 리그레트 측면에서 베이스라인 방법들을 능가함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.