QUICK REVIEW

[論文レビュー] Spying the World from your Laptop -- Identifying and Profiling Content Providers and Big Downloaders in BitTorrent

Stevens Le Blond, Arnaud Legout|arXiv (Cornell University)|Apr 6, 2010

Peer-to-Peer Network Technologies参考文献 10被引用数 46

ひとこと要約

本稿では、公開のトラッカーおよびウェブサイトデータを活用することで、1台のマシンが継続的にBitTorrentトラフィックを監視し、コンテンツプロバイダーおよび大規模ダウンローダーを高い正確性で特定できることを示している。103日間にわたり、著者らは1億4800万件のIPアドレスを収集し、新規Torrentの70％に対してコンテンツプロバイダーを特定した。その結果、大多数のコンテンツインジェクションが外国のデータセンターに集中していることが判明し、P2Pファイル共有における深刻なプライバシーリスクが露呈された。

ABSTRACT

This paper presents a set of exploits an adversary can use to continuously spy on most BitTorrent users of the Internet from a single machine and for a long period of time. Using these exploits for a period of 103 days, we collected 148 million IPs downloading 2 billion copies of contents. We identify the IP address of the content providers for 70% of the BitTorrent contents we spied on. We show that a few content providers inject most contents into BitTorrent and that those content providers are located in foreign data centers. We also show that an adversary can compromise the privacy of any peer in BitTorrent and identify the big downloaders that we define as the peers who subscribe to a large number of contents. This infringement on users' privacy poses a significant impediment to the legal adoption of BitTorrent.

研究の動機と目的

公開利用可能な情報源のみを用いて、1台のマシンが長期的・大規模な監視を実行可能であることを明らかにすること。
トラッカーおよびウェブサイトデータを活用して、BitTorrentにコンテンツを最初にインジェクトするピア（コンテンツプロバイダー）を特定・プロファイリングすること。
ネットワークレベルの難読化技術があるにもかかわらず、多数のTorrentにサブスクライブしているピア（大規模ダウンローダー）を正確に特定・プロファイリングすること。
NAT、プロキシ、Torエグジットノード、監視ツールからの誤検出を系統的に除外するためのフィルタリング手法を開発し、アクティブなピアの正確な同定を保証すること。
このような監視のプライバシー的影響、特に非違法な文脈におけるBitTorrentの法的導入に向けた影響を強調すること。

提案手法

ThePirateBayの『新規インジェクション済みコンテンツ』ページを1分ごとに自動スクレイピングし、新規に作成されたTorrentおよび関連するトラッカーを検出する。
新規Torrentが出現して数秒以内にトラッカーのアナウンスリクエストを発行し、初期に出現するピアをコンテンツプロバイダーと仮定する（初期参加であるため）。
標準的なアナウンスリクエストおよびスケープ・アラルールリクエストを用いて、トラッカー応答から得られるIPアドレスを収集・相関させ、ピアをコンテンツにマッピングする。
NAT、HTTP/socksプロキシ、Torエグジットノード、監視ツールからの誤検出を検出・除外するためのフィルタリングパイプラインを実装し、大規模ダウンローダーの正確な同定を可能にする。
同様の手法を分散ハッシュテーブル（DHT）インfra構造に拡張し、中央集権的なトラッカーに依存せずに、IPアドレスからコンテンツへのマッピングを独立して収集する。
プロセス生成を最小限に抑え、リクエスト処理を最適化することで、システムオーバーヘッドを抑えた軽量な1マシン測定システムを構築した。

実験結果

リサーチクエスチョン

RQ1敵対者は、公開情報源のみを用いて、BitTorrentにおけるコンテンツプロバイダーのIPアドレスを特定できるか？
RQ2新規コンテンツインジェクションの大部分を占めるコンテンツプロバイダーはどれくらいの数であり、地理的およびインfra構造的にどこに位置しているか？
RQ3ネットワークレベルの難読化技術があるにもかかわらず、敵対者が大規模ダウンローダー（多数のTorrentにサブスクライブしているピア）をどれほど正確に特定できるか？
RQ4大規模ダウンローダー同定における主な誤検出要因は何か、そしてそれらを体系的に除外する方法は何か？
RQ5大規模なインfraストラクチャに依存せずに、1台のマシンで長期的・大規模なBitTorrentトラフィック監視が可能か？

主な発見

著者らは、103日間の監視期間中に、監視した新規Torrentの70％に対してコンテンツプロバイダーのIPアドレスを特定した。
少数のコンテンツプロバイダー（主に外国のデータセンターに所在）が、新規コンテンツインジェクションの大部分を占めており、1人のプロバイダーが1日あたり6本を超える新規Torrentをアップロードしていた。
測定システムは、1億2000万件の異なるコンテンツに対して20億回のコンテンツ配布を伴い、1億4800万件のユニークIPアドレスを収集した。
先行研究と比較して50倍の効率向上を達成し、1台のマシンで12時間で700万件のIPアドレスを収集したのに対し、過去の研究では35台のマシンを要した。
NAT、プロキシ、Torエグジットノード、監視ツールからの誤検出を効果的にフィルタリングし、本物の大規模ダウンローダーの正確な同定に成功した。
同じトラッキング手法をDHTに対しても成功裏に適用した。これにより、プライバシー上の脆弱性が中央集権的トラッカーと分散型DHTの両方のインfra構造に内在していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。