Skip to main content
QUICK REVIEW

[論文レビュー] Handbook of Network Analysis [KONECT -- the Koblenz Network Collection]

Jérôme Kunegis|arXiv (Cornell University)|Feb 22, 2014
Complex Network Analysis Techniques参考文献 38被引用数 26
ひとこと要約

このハンドブックは、KONECT(Koblenzネットワークコレクション)を紹介するもので、社会的ネットワーク、ウェブグラフ、共同作業システムなど、多様な分野にまたがる214以上のネットワークデータセットを収録した包括的でオープンアクセスのリポジトリである。統一された分類法、一貫性のあるメタデータタグ付け、統合されたMatlabツールキットを通じて、標準化された統計、可視化、ファイル形式を用いた再現可能で多分野にわたるネットワーク科学研究を可能にする。

ABSTRACT

This is the handbook for the KONECT project, the \emph{Koblenz Network Collection}, a scientific project to collect, analyse, and provide network datasets for researchers in all related fields of research, by the Namur Center for Complex Systems (naXys) at the University of Namur, Belgium, with web hosting provided by the Institute for Web Science and Technologies (WeST) at the University of Koblenz--Landau, Germany.

研究の動機と目的

  • ネットワーク科学研究の分野を越えて標準化され、比較可能なネットワークデータセットの不足に対処するため、統一的でアクセス可能なリポジトリを構築すること。
  • 多様なネットワークタイプに対して包括的な分類法と一貫性のあるメタデータタグ付けシステムを定義することで、多分野にわたるネットワーク分析を可能にすること。
  • すべてのデータセットに対して標準化された統計、可視化、Matlabベースの分析ツールキットを提供することで、再現可能な研究を支援すること。
  • ソーシャルメディア、引用ネットワーク、ウェブグラフなど、異なるソースからのネットワークデータを、単一で一貫したフレームワークに統合することを可能にすること。
  • 出典情報、完全性、構造的性質(例:#incomplete, #lcc, #tournament)などのタグを付与することで、データ品質と利用可能性を向上させること。

提案手法

  • KONECTは、形式(無向、有向、二部)、エッジ重みの種別、重複度、およびメタデータ(例:タイムスタンプ、ラベル)に基づいて、ネットワークデータセットを標準化された分類法に分類する。
  • 各ネットワークには一意の2文字または3文字のコードが割り当てられ、構造的およびデータ品質の性質を示すメタデータフラグ(例:#incomplete, #lcc, #tournament)が付与される。
  • ネットワーク統計(例:次数分布、クラスタ係数)の計算および可視化(例:ノード数対平均次数の散布図)の生成を可能にするMatlabツールボックスを提供する。
  • プレーンテキスト、エッジリスト、RDF準拠のN3形式を含む複数のファイル形式をサポートし、ノードおよびエッジデータのための拡張可能なメタデータフィールドを備える。
  • Webインターフェース(konect.uni-koblenz.de)およびGitHubホスティングのコードベース(例:konect-toolbox, konect-handbook)を介して、公開アクセスと再現可能性を確保する。
  • ネットワークは自動パイプラインを用いて抽出・検証され、#regenerateタグにより再生成および更新が可能である。

実験結果

リサーチクエスチョン

  • RQ1どのようにすれば、異なるデータセットや分野を越えてネットワーク科学研究の再現可能性と比較可能性を高められるか?
  • RQ2どのような標準化されたメタデータおよびタグ付けシステムが、多様なネットワークデータセット間でのデータ品質と相互運用性を向上させるか?
  • RQ3統一されたフレームワークは、ソーシャルネットワーク、ウェブサイエンス、機械学習における多分野にわたる研究をどのように支援するか?
  • RQ4異なる応用分野における現実世界のネットワークの主な構造的および統計的性質は何か?
  • RQ5ネットワークデータセットを一貫して表現・保存・可視化する方法は何か?これにより大規模な分析とツールの相互運用性がどのように実現されるか?

主な発見

  • 2014年10月現在、KONECTは214のネットワークデータセットをホスティングしており、16ノードの古典的データセット(例:ハイランド・Tribe)から、5200万ノード、190億エッジを有するTwitterソーシャルネットワークに至るまでの巨大な現実世界のネットワークまで含まれる。
  • 本プロジェクトは、信頼性の高いデータセット間比較・分析を可能にする一貫性のある標準化された分類法およびメタデータタグ付けシステム(例:#incomplete, #lcc, #tournament)を提供している。
  • KONECTのMatlabツールボックスにより、主要なネットワーク統計の自動計算および可視化(例:ネットワークサイズ対平均次数の散布図)が可能である。
  • エッジリスト、RDF/N3、構造化されたメタデータを含む複数のデータフォーマットをサポートし、ノードおよびエッジ属性のための拡張可能なフィールドを備える。
  • KONECTのWebプラットフォームおよびGitHubホスティングのコードベース(例:konect-toolbox, konect-handbook)により、長期的なアクセス可能性、再現性、コミュニティ貢献が保証されている。
  • 本プロジェクトは欧州連合の資金(例:ROBUST, SocialSensor, REVEAL)により支援されており、コブレンツ=ランダウ大学がホスティングし、ナミュール大学で開発が継続されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。