[논문 리뷰] Facebook Ads Monitor: An Independent Auditing System for Political Ads on Facebook
본 논문은 Facebook Ad Monitor라는 독립적인 감사 시스템을 제시합니다. 이 시스템은 브라우저 확장을 통해 Facebook 광고를 수집하고 골드 스탠다드를 라벨링하며 CNN 및 기타 ML 모델을 사용해 정치 광고를 탐지하고, Facebook의 Ad Library를 넘어 신고되지 않은 정치 광고를 밝혀냅니다.
The 2016 United States presidential election was marked by the abuse of targeted advertising on Facebook. Concerned with the risk of the same kind of abuse to happen in the 2018 Brazilian elections, we designed and deployed an independent auditing system to monitor political ads on Facebook in Brazil. To do that we first adapted a browser plugin to gather ads from the timeline of volunteers using Facebook. We managed to convince more than 2000 volunteers to help our project and install our tool. Then, we use a Convolution Neural Network (CNN) to detect political Facebook ads using word embeddings. To evaluate our approach, we manually label a data collection of 10k ads as political or non-political and then we provide an in-depth evaluation of proposed approach for identifying political ads by comparing it with classic supervised machine learning methods. Finally, we deployed a real system that shows the ads identified as related to politics. We noticed that not all political ads we detected were present in the Facebook Ad Library for political ads. Our results emphasize the importance of enforcement mechanisms for declaring political ads and the need for independent auditing platforms.
연구 동기 및 목표
- 브라질 선거 기간 동안 표적 정치 광고의 위험을 동기 부여하고 해결책을 제시합니다.
- 자원봉사자를 통한 정치 광고를 모니터링하는 독립 감사 플랫폼을 설계하고 배포합니다.
- 정치 광고 분류기 개발 및 다양한 기계 학습 모델 평가를 수행합니다.
- 실제 데이터 세트와 실제 광고에 비춰 분류기의 성능을 골드 스탠다드와 비교합니다.
- 선거 투명성을 위한 독립 감사의 실행 가능성과 긍정적 영향을 시연합니다.
제안 방법
- 브라우저 확장을 적용해 자원봉사자의 Facebook 타임라인에서 보이는 광고를 수집하고 'Why am I seeing this?'의 광고 설명을 포착했습니다.
- 두 개의 데이터 세트를 구성했습니다: 정치/비정치 광고의 골드 스탠다드 세트와 브라질 광고에서 얻은 대규모 AdCollector 데이터 세트.
- 정치 광고 탐지를 위해 CNN, SVM, 로지스틱 회귀, 랜덤 포레스트, 해싱이 포함된 나이브 베이즈, 그래디언트 부스팅 등 여섯 가지 분류기를 구현하고 비교했습니다.
- Word2Vec 300차원 임베딩을 사용해 광고를 표현하고 120개의 필터와 드롭아웃을 갖춘 CNN을 RMSProp로 학습했습니다.
- 10-fold 교차 검증으로 모델을 평가하고 정확도, AUC, Macro-F1을 보고했으며, 실제 불균형을 반영하기 위해 거짓 양성률이 낮은 임계값을 설정했습니다.
- Ad Library를 넘어 탐지된 광고를 분석해 커버리지 및 집행 필요성을 평가하는 실시간 정치 광고 탐지기를 배포했습니다.
실험 결과
연구 질문
- RQ1브라질에서 Facebook의 정치 광고를 수집하고 분석하는 독립적 감사 플랫폼은 어떻게 작동할 수 있는가.
- RQ2포르투갈어 Facebook 콘텐츠에서 어떤 기계 학습 모델이 정치 광고를 가장 잘 탐지하는가.
- RQ3탐지된 정치 광고 세트가 커버리지 측면에서 Facebook Ad Library와 어떻게 비교되는가.
- RQ4현실 세계의 불균형 데이터에서 진양성/거짓양성 간의 밸런스를 맞추는 임계값은 무엇인가.
- RQ5정치 광고 공개 의무의 정책 및 집행에 어떤 시사점이 있는가?
주요 결과
- CNN 및 다른 모델은 거의 균형에 가까운 골드 스탠다드에서 높은 정확도 약 94%를 달성합니다.
- CNN 및 Naive Bayes는 0.98~0.99의 높은 AUC 값과 Macro-F1 약 0.94를 보입니다.
- 거짓 양성률을 1%로 설정했을 때 CNN은 진양성률 78%, Naive Bayes는 85%; 3%에서는 CNN 90%, Naive Bayes 95%입니다.
- AdCollector 데이터 세트에서 선거 기간 동안 38,110개의 포르투갈어 광고 중 835개가 정치 광고로 나타나 Facebook Ad Library를 넘어 신고되지 않은 정치 콘텐츠를 시사합니다.
- 탐지된 일부 정치 광고는 Ad Library에 있었지만 다수는 아니었으며, 선언 메커니즘의 집행 격차를 강조합니다.
- 본 연구는 선거 투명성을 위한 독립적 감사 플랫폼의 실행 가능성과 잠재적 긍정적 영향을 시연합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.