Skip to main content
QUICK REVIEW

[논문 리뷰] Weights and Methodology Brief for the COVID-19 Symptom Survey by University of Maryland and Carnegie Mellon University, in Partnership with Facebook

Neta Barkay, Curtiss Cobb|arXiv (Cornell University)|2020. 09. 25.
Data-Driven Disease Surveillance참고 문헌 3인용 수 62
한 줄 요약

이 논문은 Facebook의 미국 CMU 및 글로벌 UMD COVID-19 증상 설문조사를 대표적으로 만들기 위해 사용된 샘플링 설계와 두 단계 가중 방식(IPSW 및 post-stratification)을 개략적으로 제시하며, 프라이버시 보호를 포함합니다.

ABSTRACT

Facebook is partnering with academic institutions to support COVID-19 research. Currently, we are inviting Facebook app users in the United States to take a survey collected by faculty at Carnegie Mellon University (CMU) Delphi Research Center, and we are inviting Facebook app users in more than 200 countries or territories globally to take a survey collected by faculty at the University of Maryland (UMD) Joint Program in Survey Methodology (JPSM). As part of this initiative, we are applying best practices from survey statistics to design and execute two components: (1) sampling design and (2) survey weights, which make the sample more representative of the general population. This paper describes the methods we used in these efforts in order to allow data users to execute their analyses using the weights.

연구 동기 및 목표

  • Facebook COVID-19 증상 설문의 샘플링 설계 및 대상 인구를 설명합니다.
  • 비응답 및 커버리지 오류를 줄이기 위한 2단계 가중 방법론을 설명합니다.
  • 연구자들을 위한 프라이버시 보존 관행 및 데이터 접근을 명시합니다.
  • 분석 및 분산 추정에서 설문 가중치를 사용하는 지침을 제공합니다.

제안 방법

  • 샘플링 프레임을 Facebook Active User Base (FAUB) 연령 18+의 200개 국가/영토 전역으로 정의합니다.
  • 일일 반복 단면조사를 Stratified random sampling 및 행정 구역 간 차등 샘플링으로 수행합니다.
  • 비응답 보정을 위해 Facebook에서 파생된 공변량을 사용하여 Inverse Propensity Score Weighting (IPSW)을 적용합니다.
  • 연속 공변량을 버킷으로 변환하여 분포를 일치시키고 정규화 및 가중치 트리밍을 적용합니다.
  • Post-Stratification (PS)를 미국 CPS 2018; UN 2019 projections와 같은 벤치마크 및 IPSW 입력을 사용하여 일반 성인 인구를 대표하도록 적용합니다.
  • CLI 추정용 가중치와 최소 두 가지 질문에 답하는 더 큰 집합에 대한 가중치의 두 가지 세트를 제공하고 분산 추정을 위한 지침을 제공합니다.

실험 결과

연구 질문

  • RQ1IPSW 기반 비응답 보정이 Facebook Active User Base를 얼마나 잘 대표하는가?
  • RQ2Post-Stratification이 나라 또는 지역 수준의 인구 벤치마크와 설문 가중치를 얼마나 잘 일치시키는가?
  • RQ3가중치를 인구 및 하위인구 추정과 함께 사용하기 위한 지침(분산 추정 포함)은 무엇인가?
  • RQ4가중 프로세스와 연구자 데이터 접근에 수반되는 프라이버시 보존 관행은 무엇인가?

주요 결과

  • 가중치는 두 단계로 생성됩니다: 비응답 보정을 위한 IPSW와 커버리지 보정을 위한 post-stratification.
  • 비응답 공변량은 내부 Facebook 데이터에서 얻은 연령, 성별, 지리 정보를 포함하며, 가중치는 한 응답자가 인구의 몇 명의 성인이 대표되는지에 반영합니다.
  • 최종 가중치는 행정 구역이 post-stratification에 포함된 경우 지역 또는 국가 차원의 통계를 가능하게 하며, 그렇지 않으면 국가 차원의 통계가 적용됩니다.
  • 가중치는 연구자들이 쉽게 사용할 수 있도록 단순하고 견고하게 설계되었으며, 사용자가 추가 편향 보정을 할 수 있는 옵션이 있습니다.
  • 집계된 가중 추정치는 UMD와 CMU를 통해 공개적으로 이용 가능하며, 비집계 데이터 접근은 Data Use Agreement가 필요합니다.
  • 초기의 미국 가중치는 이후 조정되었으며, 이전의 스케일링 결정으로 인한 것이므로 오래된 가중치를 사용하는 사용자는 새 가중치를 채택하는 것이 권장됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.