[論文レビュー] AndroZoo++: Collecting Millions of Android Apps and Their Metadata for the Research Community
AndroZoo++ は、拡張性が高く再現性のある Android 研究を支える、最新の情報を含む何百万もの Android アプリの成長するリポジトリを構築します。
We present a growing collection of Android apps collected from several sources, including the official Google Play app market and a growing collection of various metadata of those collected apps aiming at facilitating the Android-relevant research works. Our dataset by far has collected over five million apps and over 20 types of metadata such as VirusTotal reports. Our objective of collecting this dataset is to contribute to ongoing research efforts, as well as to enable new potential research topics on Android Apps. By releasing our app and metadata set to the research community, we also aim at encouraging our fellow researchers to engage in reproducible experiments. This article will be continuously updated based on the growing apps and metadata collected in the AndroZoo project. If you have specific metadata that you want to collect from AndroZoo and which are not yet provided by far, please let us know. We will thereby prioritise it in our collecting process so as to provide it to our fellow researchers in a short manner.
研究の動機と目的
- 研究利用のために、複数の市場から最新で大規模な Android アプリのコレクションを提供する。
- 研究者が関連するアプリを事前選択し、ダウンロードコストを削減するのを支援するための豊富なメタデータを提供する。
- 研究コミュニティとアプリとメタデータを共有することで再現性のある実験を促進する。
- セキュリティ、進化、マルウェア分析を含む多様な研究トピックを支援する。
- 追加のメタデータニーズに関するフィードバックを集め、コミュニティ主導の改善を促進する。
提案手法
- 市場インフラへの負荷を最小限に抑えつつ、複数の市場から Android アプリを収集する専用クローラを開発する。
- 市場ごとのデュプリケーション排除を実装(各市場内でのローカル)し、APK をアーカイブする前にSHA256チェックサムを計算する。
- 各 APK にハッシュ、サイズ、マーケットソース、マニフェスト由来のフィールド、セキュリティレポートなどの豊富なメタデータを添付する。
- マニフェスト、DEX、公開情報からメタデータアーティファクトを計算・公開し、完全なダウンロードなしに事前選択と分析を可能にする。
- セキュリティ関連のレポート(VirusTotal、AndroBugs)およびその他の高度なメタデータ( piggybacking ペア、ライブラリ、アプリ系譜)を収集してセキュリティと進化研究を支援する。
- 研究者が追加のメタデータをリクエストできる仕組みを提供し、将来の収集優先度をユーザーのニーズに導かれるようにする。
実験結果
リサーチクエスチョン
- RQ1多様な市場から大規模で最新の Android アプリのコレクションを、市場インフラへの影響を最小限に抑えつつどう構築できるか?
- RQ2APK ファイル以外のどのメタデータが、Android アプリの事前選択、フィルタリング、再現性のある分析を最も効果的に支援するか?
- RQ3収集データをどのようにコード分析、進化、マルウェア重視の研究を大規模に可能にするか?
- RQ4このようなデータセットを用いて、アプリの系譜、 piggybacking、共通ライブラリについてどんな洞察が得られるか?
主な発見
- データセットはこれまでに500万本を超えるアプリと20種類以上のメタデータの収集を達成している。
- メタデータカタログは APK、マニフェスト、DEX、公開情報、セキュリティレポート、その他を含む24項目。
- 含まれているアプリに対して作成された VirusTotal レポートと AndroBugs レポートによりセキュリティ分析が促進される。
- データセットは数千のファミリーと複数バージョンの履歴を持つ、アプリの系譜とファミリ variantes を探ることを可能にする。
- piggybacking ペア、共通/広告ライブラリ、アプリ系譜データはマルウェア、再パッケージ化、進化研究の洞察を提供する。
- AndroZoo プロジェクトはデータの提供と研究者からのメタデータリクエストの募集を通じて、再現性とコミュニティの関与を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。