Skip to main content
QUICK REVIEW

[論文レビュー] Beyond $1/2$-Approximation for Submodular Maximization on Massive Data Streams

Ashkan Norouzi-Fard, Jakub Tarnawski|arXiv (Cornell University)|Aug 6, 2018
Complexity and Algorithms in Graphs被引用数 38
ひとこと要約

この論文は、ランダム順序でのデータ到着を仮定した場合に、1/2-近似を超える最初の低メモリ・ワンパス・ストリーミングアルゴリズムSalsaを導入する。ランダム順序と適応的しきい値設定を活用することで、従来手法の0.5-近似の壁を打ち破り、有利な条件下で期待値として(1−1/e)-近似を達成する。クラスタリング、ソーシャルネットワーク解析、レコメンデーションシステムにおける実験的検証も行われている。

ABSTRACT

Many tasks in machine learning and data mining, such as data diversification, non-parametric learning, kernel machines, clustering etc., require extracting a small but representative summary from a massive dataset. Often, such problems can be posed as maximizing a submodular set function subject to a cardinality constraint. We consider this question in the streaming setting, where elements arrive over time at a fast pace and thus we need to design an efficient, low-memory algorithm. One such method, proposed by Badanidiyuru et al. (2014), always finds a $0.5$-approximate solution. Can this approximation factor be improved? We answer this question affirmatively by designing a new algorithm SALSA for streaming submodular maximization. It is the first low-memory, single-pass algorithm that improves the factor $0.5$, under the natural assumption that elements arrive in a random order. We also show that this assumption is necessary, i.e., that there is no such algorithm with better than $0.5$-approximation when elements arrive in arbitrary order. Our experiments demonstrate that SALSA significantly outperforms the state of the art in applications related to exemplar-based clustering, social graph analysis, and recommender systems.

研究の動機と目的

  • 基数制約下でサブモジュラ最大化のための従来のストリーミングアルゴリズムが1/2-近似に制限されているという限界を解決すること。
  • 敵対的順序の設定では知られている1/2-近似の壁を超えるために、ランダム順序でのデータ到着が有効であるかを調査すること。
  • 複数回のパスや大容量メモリを必要とせず、改善された近似保証を達成できる低メモリ・ワンパスのアルゴリズムを設計すること。
  • ランダム順序仮定の必要性を示すために、任意順序ストリームではいかなるアルゴリズムも1/2-近似を超えることができないことを証明すること。
  • 最適値の事前知識が不要な実用的アルゴリズムを提供し、対数的オーバーヘッドを持つ推定機構を用いること。

提案手法

  • 最適値の推定値とランダム順序到着に基づく適応的しきい値設定を用いるSalsaというストリーミングアルゴリズムを提案する。
  • 後続に到着する要素がより顕著に寄与する可能性が高いという事実を活用し、マージナルゲインの再帰的バウンドを用いる新しい分析フレームワークを導入する。
  • 各要素あたりの推定最適値の動的調整された一部を超えるマージナルゲインを持つ要素のみを追加するしきい値戦略を適用する。
  • 最適値の幾何的間隔の推定値の系列を用いた推定機構により、未知のOPTを扱い、並列で動作するアルゴリズムインスタンスを対数的数に維持する。
  • 候補となる最適値の範囲を制限するために、最大の単一要素値の動的推定値を維持し、効率的なメモリ使用を保証する。
  • ランダム順序下で、Salsaが期待値として(1−1/e)-近似を達成することを証明する。実行時間とメモリコストは、近似誤差に対して対数的にスケーリングする。

実験結果

リサーチクエスチョン

  • RQ1単一パス・低メモリのストリーミングアルゴリズムは、基数制約下で単調サブモジュラ最大化に対して1/2-近似を超えることができるか?
  • RQ2ランダム順序でのデータ到着を仮定した場合、1/2-近似の壁は克服可能か?
  • RQ3ストリーミングモデルで1/2-近似を超えるために必要な最小メモリ要件は何か?また、ストリーム長に応じてスケーリングされるか?
  • RQ4最適値の事前知識が不要でありながら、改善された近似保証を維持できる実用的アルゴリズムを設計できるか?
  • RQ5Salsaの性能は、例示的クラスタリングやソーシャルグラフ解析といった実世界の応用において、Sieve-Streamingなどの最先端手法と比べてどのように異なるか?

主な発見

  • Salsaは、ランダム順序到着下で、ストリーミングモデルにおける単調サブモジュラ最大化に対して(1−1/e)-近似を達成し、従来手法の1/2-近似を著しく上回る。
  • 本論文では、1/2-近似を超える任意のアルゴリズムが、最悪ケースでΩ(n/k)のメモリを必要とすることが証明されており、任意順序ストリームでは1/2-近似の壁がタイトであることが示されている。
  • ランダム順序仮定は必須である:任意順序ストリームでは、いかなる低メモリ・ワンパスアルゴリズムも1/2-近似を超えることはできない、最適値の推定でさえも。
  • 実験により、Salsaは例示的クラスタリング、ソーシャルネットワーク解析、レコメンデーションシステムにおいて、Sieve-Streamingなどの最先端手法を上回ることを示している。
  • アルゴリズムは、各要素あたりO(log(k)/ε)のメモリと時間コストを維持し、最適値の幾何的推定値の系列による推定機構のおかげで、合計のメモリオーバーヘッドがO(log(k)/ε)に収まる。
  • 理論的分析により、Salsaの近似比は、ランダム順序仮定下でしきい値レベルの数が増加するにつれて(1−1/e)に収束することが示されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。