QUICK REVIEW

[論文レビュー] Privacy in Social Media: Identification, Mitigation and Applications

Ghazaleh Beigi, Huan Liu|arXiv (Cornell University)|Aug 7, 2018

Privacy-Preserving Technologies in Data参考文献 169被引用数 23

ひとこと要約

本調査は、アイデンティティおよび属性漏洩攻撃に注目して、ソーシャルメディアにおけるプライバシーリスクについて包括的な分析を提供する。最先端の匿名化技術をレビューし、既存の研究を5つの分野—グラフデータ、著者特定、プロファイル属性、位置情報プライバシー、レコメンデーションシステム—に分類し、特にテキスト、空間時間的、異種データに対する防御メカニズムの欠如という主なギャップを特定する。

ABSTRACT

The increasing popularity of social media has attracted a huge number of people to participate in numerous activities on a daily basis. This results in tremendous amounts of rich user-generated data. This data provides opportunities for researchers and service providers to study and better understand users' behaviors and further improve the quality of the personalized services. Publishing user-generated data risks exposing individuals' privacy. Users privacy in social media is an emerging task and has attracted increasing attention in recent years. These works study privacy issues in social media from the two different points of views: identification of vulnerabilities, and mitigation of privacy risks. Recent research has shown the vulnerability of user-generated data against the two general types of attacks, identity disclosure and attribute disclosure. These privacy issues mandate social media data publishers to protect users' privacy by sanitizing user-generated data before publishing it. Consequently, various protection techniques have been proposed to anonymize user-generated social media data. There is a vast literature on privacy of users in social media from many perspectives. In this survey, we review the key achievements of user privacy in social media. In particular, we review and compare the state-of-the-art algorithms in terms of the privacy leakage attacks and anonymization algorithms. We overview the privacy risks from different aspects of social media and categorize the relevant works into five groups 1) graph data anonymization and de-anonymization, 2) author identification, 3) profile attribute disclosure, 4) user location and privacy, and 5) recommender systems and privacy issues. We also discuss open problems and future research directions for user privacy issues in social media.

研究の動機と目的

ユーザーゲンレーテッドのソーシャルメディアデータのプライバシー保護技術を体系的かつ比較的にレビューすること。
グラフデータ、著者特定、プロファイル属性、位置情報プライバシー、レコメンデーションシステムの5つの主要分野におけるプライバシーリスクを特定・分類すること。
プライバシー分野内での研究開発の不均衡と、新たな攻撃に対して有効な防御メカニズムの欠如を浮き彫りにすること。
テキスト、空間時間的、異種ソーシャルメディアデータにおけるプライバシー保護のための今後の研究方向性を提案すること。
実際のソーシャルメディアプラットフォームにおける脱匿名化攻撃と効果的な匿名化防御の間の重要なギャップを埋めること。

提案手法

データタイプとプライバシーリスクに基づいて、既存の研究を5つのテーマ的分野に分類：グラフデータ匿名化、著者特定、プロファイル属性漏洩、ユーザーの位置情報プライバシー、レコメンデーションシステムのプライバシー。
アイデンティティおよび属性漏洩リスクを軽減するために設計された最先端の匿名化アルゴリズムをレビューおよび比較する。
Netflix賞攻撃のような脱匿名化攻撃を分析し、個人識別情報（PII）を削除するだけでは不十分であることを示す。これは、データパターンを通じた構造的再識別が可能であるためである。
データの側面（例：テキストとグラフ）を独立して匿名化する際の限界を評価し、異種データが個別に安全に処理できるという仮定に疑問を呈する。
テキストと位置情報などの異種データコンponents間の相互依存性を考慮した、今後の匿名化技術のフレームワークを提案する。
未解決の問題を特定し、プロファイル属性推定に対する防御メカニズムの欠如や、空間時間的データにおける時間的プライバシー保護の欠如を指摘する。

実験結果

リサーチクエスチョン

RQ1ソーシャルメディアにおける主なプライバシー攻撃の種類は何であり、アイデンティティ漏洩と属性漏洩の間でどのように異なるか？
RQ2なぜ従来のPII削除は、ソーシャルメディアデータにおけるユーザープライバシー保護に不十分なのか？
RQ3脱匿名化攻撃は、ユーザーゲンレーテッドデータの構造的および行動的パターンをどのように悪用するのか？
RQ4テキスト、グラフ、空間時間的情報を組み合わせた際、異種ソーシャルメディアデータにおけるプライバシー保護の主な課題は何か？
RQ5現代のソーシャルメディアプラットフォーム向けに、有効でかつユーティリティを保った匿名化技術を開発するにあたり、最も深刻な未解決の研究課題は何か？

主な発見

Netflix賞攻撃によって示されたように、直接識別子を削除するだけの従来の匿名化手法では不十分であり、ユーザーは行動パターンを通じて再識別可能である。
直接識別子が削除された状態でも、グラフ構造とユーザーユーザー行動パターンそのものが、脱匿名化を可能にする。
年齢、場所、信頼関係などのプロファイル属性は、間接的シグナルから推定可能であり、深刻なプライバシーリスクをもたらす。
特にテキストおよびプロファイルデータに対する属性漏洩攻撃に対する防御メカニズムの欠如が顕著である。
テキストやグラフといったデータ側面を独立して匿名化することは、隠れた相互依存性があるため誤りであり、これらは脱匿名化に悪用される可能性がある。
今後の研究は、ソーシャルメディアデータコンponentsの異種性と相互関係を考慮した統合的匿名化フレームワークの開発に注力すべきである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。