Skip to main content
QUICK REVIEW

[論文レビュー] Towards a Decomposition-Optimal Algorithm for Counting and Sampling Arbitrary Motifs in Sublinear Time

Amartya Shankha Biswas, Talya Eden|arXiv (Cornell University)|Jan 1, 2021
Gene Regulatory Network Analysis参考文献 36被引用数 4
ひとこと要約

本稿では、次数、隣接、ペア、一様エッジクエリを用いて、任意のモチーフの近似的なカウントと一様サンプリングを行う新しい部分線形時間アルゴリズムを提示する。p次の次数分布のモーメントに比例して頂点をサンプリングする改良されたスターサンプリングサブルーチンを導入することで、アルゴリズムは、多項式対数(n)要因を除き、常に従来手法より良好か、あるいはほとんどのグラフにおいてより優れているクエリ複雑性を達成する。主な貢献は、分解に少なくとも1つの奇サイクルを含むモチーフについて分解最適性を証明し、このようなモチーフに対する初めての非自明な下界を確立したことである。

ABSTRACT

We consider the problem of sampling and approximately counting an arbitrary given motif H in a graph G, where access to G is given via queries: degree, neighbor, and pair, as well as uniform edge sample queries. Previous algorithms for these tasks were based on a decomposition of H into a collection of odd cycles and stars, denoted D^*(H) = {O_{k₁},...,O_{k_q}, S_{p₁},...,S_{p_𝓁}}. These algorithms were shown to be optimal for the case where H is a clique or an odd-length cycle, but no other lower bounds were known. We present a new algorithm for sampling arbitrary motifs which, up to poly(log n) factors, is always at least as good, and for most graphs G is strictly better. The main ingredient leading to this improvement is an improved uniform algorithm for sampling stars, which might be of independent interest, as it allows to sample vertices according to the p-th moment of the degree distribution. Finally, we prove that this algorithm is decomposition-optimal for decompositions that contain at least one odd cycle. These are the first lower bounds for motifs H with a nontrivial decomposition, i.e., motifs that have more than a single component in their decomposition.

研究の動機と目的

  • 大規模なグラフにおける近似的なモチーフカウントおよび一様サンプリングのための、より効率的な部分線形時間アルゴリズムの開発。
  • 非自明な分解(すなわち、分解に2つ以上の成分を含む)を持つモチーフに対する下界の欠如に対処すること。
  • 次数分布のp次のモーメントに比例するサンプリングを可能にする、スターサンプリングの最先端の改善。
  • 分解に少なくとも1つの奇サイクルを含むモチーフについての分解最適性の確立。
  • 完全グラフや奇サイクルを除き、非自明な分解を持つ任意のモチーフに対する、初めての下界の提供。

提案手法

  • モチーフHを頂点に交わらない奇サイクルとスターモチーフに分解し、D*(H) = {Ok1, ..., Okq, Sp1, ..., Spℓ} と表記する。
  • 次数d(v)^pに比例する確率で頂点をサンプリングする、新しいスターサンプリングサブルーチンを導入し、部分線形時間でスターモチーフを効率的にサンプリング可能にする。
  • 一様エッジサンプリングオракルと、注意深く構築された通信複雑性フレームワークを活用して下界を証明する。
  • サイクルガジェット、スターガジェット、および少数サイクルガジェットを用いたガジェットベースの構築により、モチーフサンプリング問題のハードインスタンスをシミュレートする。
  • アルゴリズムのクエリ複雑性は、モチーフの分解値ρ(H)に基づいて分析され、これは奇サイクルのk_i/2とスターアイテムのp_jの和として定義される。
  • 下界は、2人用通信問題への還元により証明され、アリスとボブがハードなグラフ族へのクエリをシミュレートする。これにより、一様にモチーフコピーをサンプリングする任意のアルゴリズムについて、Ω(m/B)のクエリ複雑性が成立する。

実験結果

リサーチクエスチョン

  • RQ1すべてのモチーフタイプ(完全グラフや奇サイクルに限らず)に対して最適な部分線形時間アルゴリズムを設計できるか?
  • RQ2次数分布のp次のモーメントに比例するように頂点をサンプリングできる、より効率的なスターサンプリング手順は存在するか?
  • RQ3複雑な分解を持つモチーフに対する、情報理論的限界は何か?
  • RQ4分解に複数の成分を含み、特に少なくとも1つの成分が奇サイクルであるようなモチーフに対して、下界を証明できるか?
  • RQ5提案されたアルゴリズムは、非自明な分解を持つモチーフについて分解最適性を満たすか?

主な発見

  • 提案されたアルゴリズムは、多項式対数(n)要因を除き、常に従来手法より良好か、あるいはほとんどのグラフにおいてより優れたクエリ複雑性を達成する。
  • 新しいスターサンプリングサブルーチンにより、d(v)^pに比例する確率で頂点をサンプリング可能となり、これは独立した価値を持ち、効率性を向上させる。
  • 分解に少なくとも1つの奇サイクルを含むモチーフについて、アルゴリズムは分解最適性が証明されている。
  • 本稿は、分解に2つ以上の成分を含むモチーフについて、部分線形時間におけるモチーフサンプリングおよびカウントの初めての非自明な下界を確立した。
  • 任意のアルゴリズムが一様にモチーフコピーをサンプリングする場合、クエリ複雑性にΩ(m/B)の下界が成立し、ここでBは2人用通信モデルにおける通信コストを表す。
  • サイクルガジェット、スターガジェット、および少数サイクルガジェットを用いたハードなグラフ族の構築により、分解コストがΘ(dc)に等しくなることが保証され、モチーフの構造的複雑性に基づく下界の妥当性が検証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。