QUICK REVIEW

[論文レビュー] Active Learning for Graph Embedding

Hongyun Cai, Vincent W. Zheng|arXiv (Cornell University)|May 15, 2017

Advanced Graph Neural Networks参考文献 20被引用数 43

ひとこと要約

本稿では、不確実性、代表性（情報密度およびPageRank中心性を介して）、および時間に依存する重み付けを用いて、反復的に最も情報量の多いノードをラベル付けることで、アクティブラーニングとグラフ埋め込みを共同で最適化する新しいフレームワーク、Active Graph Embedding (AGE) を提案する。AGEは、トレーニングの過程でグラフ構造から埋め込みベースの基準へと焦点を動的にシフトさせることで、ベースラインと比較してノード分類性能を顕著に向上させ、CoraおよびPubmedで最大3.7%高いMicroF1を達成する。

ABSTRACT

Graph embedding provides an efficient solution for graph analysis by converting the graph into a low-dimensional space which preserves the structure information. In contrast to the graph structure data, the i.i.d. node embedding can be processed efficiently in terms of both time and space. Current semi-supervised graph embedding algorithms assume the labelled nodes are given, which may not be always true in the real world. While manually label all training data is inapplicable, how to select the subset of training data to label so as to maximize the graph analysis task performance is of great importance. This motivates our proposed active graph embedding (AGE) framework, in which we design a general active learning query strategy for any semi-supervised graph embedding algorithm. AGE selects the most informative nodes as the training labelled nodes based on the graphical information (i.e., node centrality) as well as the learnt node embedding (i.e., node classification uncertainty and node embedding representativeness). Different query criteria are combined with the time-sensitive parameters which shift the focus from graph based query criteria to embedding based criteria as the learning progresses. Experiments have been conducted on three public data sets and the results verified the effectiveness of each component of our query strategy and the power of combining them using time-sensitive parameters. Our code is available online at: https://github.com/vwz/AGE.

研究の動機と目的

手動でのラベリングが不可能な状況において、半教師ありグラフ埋め込みのための最適なラベル付きノードを選択する課題に対処すること。
グラフ構造的性質と学習済みノード埋め込みの両方を活用する、グラフ構造データに特化したアクティブラーニング戦略を設計すること。
ラベルクエリとモデルトレーニングのエポックを交互に実行することで、アクティブラーニングとグラフ埋め込みの相互強化を可能にすること。
時間に依存する重みを用いて、不確実性、代表性、グラフ中心性といった複数の情報量基準を組み合わせることで、その有効性を評価すること。
アクティブラーニングとグラフ埋め込みの共同最適化が、パイプラインアプローチや標準ベースラインを上回ることを示すこと。

提案手法

情報エントロピー（不確実性）、情報密度（代表性）、PageRank中心性（グラフ構造）の3つの情報量スコアを用いた、複数基準のアクティブラーニングクエリ戦略を導入する。
初期段階ではグラフ中心性を優先するが、埋め込みが向上するに従い、不確実性および密度基準へと焦点をシフトさせる、時間に依存する重みを用いてこれらのスコアを線形結合する。
各トレーニングエポックの終了時にラベルクエリを実施し、新たにラベル付けされたノードに基づいてグラフ埋め込みモデルが表現を精緻化できるようにする。
ベースラインとしてGCNを採用しているが、AGEフレームワークは任意の半教師ありグラフ埋め込みアルゴリズムに一般化可能である。
αt、βt、γt という時間に応じて調整されるパラメータを用いて、中心性、不確実性、代表性の寄与度を動的に制御する動的重み付け方式を採用する。
主なタスクとしてノード分類を用い、引用ネットワーク（Cora、Citeseer、PubMed）を対象にフレームワークを評価する。

実験結果

リサーチクエスチョン

RQ1グラフ構造に基づく基準（例：中心性）と埋め込みに基づく基準（例：不確実性および代表性）を組み合わせることで、グラフ埋め込みにおけるアクティブラーニングの性能が向上するか？
RQ2トレーニングの過程でクエリ基準の重みを動的に調整することで、アクティブグラフ埋め込みの性能にどのような影響を与えるか？
RQ3パイプラインではなく、アクティブラーニングとグラフ埋め込みトレーニングを交互に実行することで、モデル性能が向上するか？
RQ4クエリ戦略の各要素（例：エントロピー、密度、中心性）が最終的な性能にどのように寄与しているか？
RQ5AGEは、標準のアクティブラーニングベースラインおよび半教師ありGCNベースラインに対して、どの程度優れているか？

主な発見

Citeseerでは、ランダムベースラインに対してMacroF1で7.6%、MicroF1で3.2%の精度向上を達成し、CoraおよびPubMedでも同様の向上を示した。
PageRank中心性をクエリ戦略に組み込むことで、エントロピー＋密度のみのケースと比較して、平均でMacroF1で2.0%、MicroF1で0.9%の性能向上が得られた。
時間に依存するパラメータを用いることで、固定重み付き組み合わせと比較して、平均でMacroF1で0.9%、MicroF1で1.3%の性能向上が得られた。
パイプラインベースライン（GCNトレーニング後にノードをラベル付ける）は、初期の埋め込みが不十分なためにラベル選択が最適でなく、AGEに劣っていた。
Coraでは、GCN半教師ありベースラインと比較して、MicroF1で3.7%、MacroF1で3.5%高い性能を達成し、標準的手法を上回ることを示した。
情報密度のみを用いると、不安定になる場合があり、場合によっては有害であることも判明した。これは、中心性や不確実性といった補完的基準の必要性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。