QUICK REVIEW

[論文レビュー] Supervised Feature Selection in Graphs with Path Coding Penalties and Network Flows

Julien Mairal, Bin Yu|arXiv (Cornell University)|Apr 20, 2012

Gene expression and cancer classification参考文献 68被引用数 38

ひとこと要約

本稿では、有向非巡回グラフ（DAG）における教師あり特徴選択のためのルートコーディングペナルティを提案し、ネットワークフロー最適化を活用して経路選択サブプロブレムを効率的に解く。この手法により、計算可能で構造的なスパarsityを実現し、良好に接続された部分グラフを促進し、合成データ、画像、ゲノムデータにおいて、既存手法よりも接続性とスケーラビリティに優れる。

ABSTRACT

We consider supervised learning problems where the features are embedded in a graph, such as gene expressions in a gene network. In this context, it is of much interest to automatically select a subgraph with few connected components; by exploiting prior knowledge, one can indeed improve the prediction performance or obtain results that are easier to interpret. Regularization or penalty functions for selecting features in graphs have recently been proposed, but they raise new algorithmic challenges. For example, they typically require solving a combinatorially hard selection problem among all connected subgraphs. In this paper, we propose computationally feasible strategies to select a sparse and well-connected subset of features sitting on a directed acyclic graph (DAG). We introduce structured sparsity penalties over paths on a DAG called "path coding" penalties. Unlike existing regularization functions that model long-range interactions between features in a graph, path coding penalties are tractable. The penalties and their proximal operators involve path selection problems, which we efficiently solve by leveraging network flow optimization. We experimentally show on synthetic, image, and genomic data that our approach is scalable and leads to more connected subgraphs than other regularization functions for graphs.

研究の動機と目的

グラフ構造データにおけるスパースで良好に接続された特徴サブセットの選択という課題に取り組むこと。特に高次元設定において。
既存のペairワイズまたは組合せ的に難しいペナルティの制限を克服し、グラフ内の長距離相互作用をモデル化できる計算的に実行可能な正則化手法を開発すること。
遺伝子ネットワーク解析や画像処理などの応用において、連結成分が少ない部分グラフを促進することで、スケーラブルで解釈可能な特徴選択を可能にすること。
非凸で高密度に接続されたペナルティと、凸で取り扱い可能な最適化の間のギャップを埋めるために、ルートコーディングを用いた凸緩和を導入すること。

提案手法

有向非巡回グラフ（DAG）における経路を対象とした構造的スパarsityを誘導するルートコーディングペナルティを導入し、接続された特徴サブセットを好む。
非凸ペナルティが接続された部分グラフを促進するのを凸緩和としてモデル化し、効率的な最適化を可能にする。
変換されたグラフにおける最短経路計算を用いて経路選択サブプロブレムを解き、効率性を確保するネットワークフロー技術を活用。
双対ノルムと近接作用素を用いて反復的にアクティブな経路を更新するアルゴリズムを採用し、最大p反復で収束を保証。
経路ベースのペナルティの双対ノルムを用いて最適性条件を導出し、各反復における新しい経路の選択を指針とする。
パラメータτにおけるパラメトリックサーチ戦略を用いて最適な経路集合を特定し、潜在関数の単調減少により収束を保証。

実験結果

リサーチクエスチョン

RQ1グリーディーや近似アルゴリズムに頼らず、計算可能で長距離接続性を促進する正則化手法を設計できるか？
RQ2経路ベースのペナルティをどのように定式化すれば、ネットワークフロー技術を用いて近接作用素が効率的に解けるか？
RQ3提案手法のルートコーディングペナルティは、既存のグラフスパarsity手法と比較して、選択された特徴サブセットの接続性をどの程度向上させるか？
RQ4遺伝子ネットワークや画像特徴などの複雑なグラフ構造を有する実世界データにおいて、提案手法はスケーラブルで効果的か？

主な発見

提案されたルートコーディングペナルティにより、DAGにおける経路の構造的スパarsityが効率的に計算可能であり、最大p反復で収束が保証される。
既存の正則化関数と比較して、特に大規模で一貫性のある特徴グループの形成を促進する点で、はるかに良好に接続された部分グラフを実現する。
合成データ、画像、ゲノムデータにおける実験結果から、本手法のスケーラビリティと、選択された特徴の接続性を維持する優れた性能が確認された。
アルゴリズムの最悪ケース計算量はO(p|E|)であり、大規模グラフに対しても計算的に実行可能である。
Huangら（2011）が提案した非凸ペナルティの凸緩和として、ルートコーディングペナルティが示され、類似した理論的保証を持つ実行可能な代替手法を提供する。
経路選択にネットワークフロー最適化を用いることで、近接作用素が効率的に計算可能となり、高次元設定における実用的導入を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。