Skip to main content
QUICK REVIEW

[論文レビュー] Using Facebook Ads Audiences for Global Lifestyle Disease Surveillance: Promises and Limitations

Matheus Araújo, Yelena Mejova|arXiv (Cornell University)|May 11, 2017
Data-Driven Disease Surveillance参考文献 17被引用数 24
ひとこと要約

本研究は、Facebook広告のオーディエンス推定値を、肥満や糖尿病などの生活習慣病の世界的な監視に用いる手法として評価する。国内での相関は強いが、オーディエンス推定値の不安定さのため、国際的な比較では実際の疾患有病率との関係が弱く、FacebookのAPIをブラックボックスとして扱うリスクを浮き彫りにする。

ABSTRACT

Every day, millions of users reveal their interests on Facebook, which are then monetized via targeted advertisement marketing campaigns. In this paper, we explore the use of demographically rich Facebook Ads audience estimates for tracking non-communicable diseases around the world. Across 47 countries, we compute the audiences of marker interests, and evaluate their potential in tracking health conditions associated with tobacco use, obesity, and diabetes, compared to the performance of placebo interests. Despite its huge potential, we find that, for modeling prevalence of health conditions across countries, differences in these interest audiences are only weakly indicative of the corresponding prevalence rates. Within the countries, however, our approach provides interesting insights on trends of health awareness across demographic groups. Finally, we provide a temporal error analysis to expose the potential pitfalls of using Facebook's Marketing API as a black box.

研究の動機と目的

  • 肥満、糖尿病、喫煙関連疾患などの生活習慣病の世界的な監視に、Facebook広告のオーディエンス推定値を用いる可能性を評価すること。
  • 国やデモグラフィックグループごとのFacebookのオーディエンス推定値の信頼性と安定性を評価すること。
  • 関心ベースのオーディエンスサイズが、現実の疾患有病率と意味的に相関しているかどうかを調査すること。
  • 偽の関心ベースラインと時系列的安定性分析を導入し、データ品質を評価し、誤検出を低減すること。
  • 特許されたソーシャルメディア広告APIを公衆衛生データソースとして使用する今後の研究のための方法論的ガイドラインを提示すること。

提案手法

  • 本研究は、47か国でFacebookのマーケティングAPIを用いて、生活習慣病関連の29のマーカー関心についてオーディエンス推定値を収集する。
  • 実世界の疾患有病率データ(世界保健機関などのグローバルヘルスデータベースより)と照合し、関係性を評価するためにスピアマン順位相関を用いる。
  • スパイルスな相関や手法の妥当性を検証するために、偽の関心(例:「コカ・コーラ」、「ポルシェ」)をベースラインとして用いる。
  • 時系列的安定性は、2回の時系列でのオーディエンス推定値を比較し、国ごとの変化(デルタ)の相関を測定することで分析する。
  • スピアマンの順位相関を用いて、時間経過に伴う年齢・性別などのデモグラフィックグループにおけるオーディエンス順序の一貫性を評価する。
  • 地理的・言語的に類似した国々(例:米国-英国、米国-インド、米国-ブラジル)間のオーディエンストレンドの類似性を評価し、データの一貫性を検証する。

実験結果

リサーチクエスチョン

  • RQ1Facebookのマーカー関心に対するオーディエンス推定値は、生活習慣病の世界的な有病率とどの程度相関しているか?
  • RQ2偽の関心に対するオーディエンス推定値は、マーカー関心と比べてどのように異なるのか? これはデータの妥当性に何を示唆するか?
  • RQ3Facebookのオーディエンス推定値は時間経過でどの程度安定しているか? また、デモグラフィックグループによってその安定性は異なるか?
  • RQ4地理的・文化的に類似した国々間でオーディエンストレンドはどの程度類似しているか? これはデータの信頼性に何を示唆するか?
  • RQ5Facebookのオーディエンス推定値における主な不安定要因は何か? そして、これらはAPIを公衆衛生監視ツールとして使用する際にどのような影響を及えるか?

主な発見

  • 47か国の分析において、Facebookの関心オーディエンスサイズと実際の疾患有病率との間の相関は弱く、オーディエンスサイズと不安定性の間でスピアマン相関がわずかに -0.57であった。これは国際的監視における予測能が低いことを示している。
  • 国内分析では、関心オーディエンスと健康意識のトレンドとの間に強く意味のある相関が確認され、地域的公衆衛生監視に有用である可能性が示された。
  • 時系列的分析から、オーディエンス推定値に顕著な不安定性が判明。2回の時系列で、関心別年齢グループの順序が一貫していたのはわずか45%(スピアマンのρ > 0.7)にとどまり、高い変動性を示した。
  • 国際比較では、言語的・文化的に類似した国々(例:米国と英国)間でより高い安定性が確認され、29の関心のうち17つで方向性の類似性が有意であった。一方、米国とインド間では29のうちたった5つにとどまった。
  • 偽の関心を用いた分析から、疾患関連でない関心に対しても健康データと誤った相関が見られることが判明。これは、ソーシャルメディアベースの健康研究において、厳密なベースラインテストの必要性を強調している。
  • 本研究は、FacebookのNLPパイプラインの更新、関心カテゴリーの再定義、広告需要の変動が、オーディエンス推定値の主な不安定要因であると特定。APIを信頼できるブラックボックスとして扱うことは、警告が必要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。