[論文レビュー] Revisiting Semi-Supervised Learning with Graph Embeddings
Planetoidフレームワークは、グラフ埋め込みとラベル予測器を同時に学習し、推定的および帰納的バリアントでセミ教師付き学習を改善し、テキスト分類、遠隔監視、エンティティ分類タスクの性能を向上させる。
We present a semi-supervised learning framework based on graph embeddings. Given a graph between instances, we train an embedding for each instance to jointly predict the class label and the neighborhood context in the graph. We develop both transductive and inductive variants of our method. In the transductive variant of our method, the class labels are determined by both the learned embeddings and input feature vectors, while in the inductive variant, the embeddings are defined as a parametric function of the feature vectors, so predictions can be made on instances not seen during training. On a large and diverse set of benchmark tasks, including text classification, distantly supervised entity extraction, and entity classification, we show improved performance over many of the existing models.
研究の動機と目的
- グラフ構造を通じてラベルなしデータを活用し、予測精度を向上させる。
- 分布的グラフ情報を利用するために、ノード埋め込みとラベル予測器を共同で学習する。
- 見られたデータと unseen のインスタンスの両方に対応するため、トランザクティブおよびインダクティブの両方のバリアントを開発する。
- 複数の領域(テキスト分類、遠隔監督抽出、エンティティ分類)で有効性を示す。
提案手法
- 各インスタンスに対して埋め込み e_i を持つニューラルネットワークを定義し、標準の分類器特徴量と共に学習させる。
- 損失を L_s + lambda L_u の形で定式化する。L_s は監視付きラベル予測、L_u はグラフコンテキストを予測する。
- グラフウォークとラベルベースのコンテキストを混合した文脈分布 p(i, c, gamma) から (i, c, gamma) のペアをサンプリングする(負サンプルを含む)。
- シグモイドを用いた二値分類を前提とした Skipgram に類似した文脈予測目的を使用する。
- トランザクティブバリアントは x に由来する表現と埋め込み由来の表現を結合して最終的なソフトマックス予測を行い、埋め込みは共同で学習される。
- インダクティブバリアントは e を入力特徴量 x のパラメトリック関数として定義し、未知のインスタンスに対する予測を可能にする。学習はパラメータ theta のみを更新し、埋め込みは x から導出される。
- 学習はL_sとL_uの交互最適化を伴う確率的勾配降下法で進行し、L_u の事前学習フェーズを含む。
実験結果
リサーチクエスチョン
- RQ1埋め込みとラベル予測器の共同学習は、グラフラプラシアン正則化よりもセミ監視学習を改善するか?
- RQ2トランザクティブとインダクティブのバリアントは、精度と一般化性能においてどう比較されるか?
- RQ3Planetoidはテキスト分類、遠隔監督付きエンティティ抽出、エンティティ分類のパフォーマンスはどうか?
- RQ4グラフベースの文脈をサンプリングすること(ランダムウォークとラベルベースの文脈を介して)の性能への影響は?
主な発見
- 帰納的Planetoid-Iは、2番目に良い帰納的手法を最大で18.7pp、平均で7.8pp上回った。
- Planetoidの帰納的およびトランザクティブなバリアントの中で最良のものは、他の手法を最大で8.5pp、平均で4.1pp上回る。
- テキスト分類(Citeseer、Cora、Pubmed)では、Planetoid-Iがしばしば最良の帰納的結果を達成し、Planetoid-TがCoraとPubmedで最良のトランザクティブ結果を達成し、Planetoid-GはGraphEmbを上回る。
- 遠隔監督付きエンティティ抽出(DIEL)では、Planetoid-IとPlanetoid-Tが recall@k 全般で競合ベースラインを大幅に上回り、複数の試行でPlanetoidバリアントが最良の結果を達成する。
- NELLエンティティ分類では、Planetoid-Iがさまざまなラベリング率で最も強力な帰納的ベースラインを大幅に上回り、グラフ構造が高度に有効な場合はGraphEmbベースのバリアントが顕著な利得を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。