QUICK REVIEW

[論文レビュー] Multiple instance learning with graph neural networks

Ming Tu, Jing Huang|arXiv (Cornell University)|Jun 12, 2019

Image Retrieval and Classification Techniques参考文献 15被引用数 55

ひとこと要約

この論文は、各バッグをグラフとして扱い、GNNでバッグ埋め込みを学習し、微分可能プーリングまたは注意機構を用いてバッグレベルの分類のための固定サイズ表現を得る、エンドツーエンドのグラフニューラルネットワーク（GNN）アプローチをMILに提案し、複数のMILベンチマークで最先端の結果を達成しつつ解釈性を維持。

ABSTRACT

Multiple instance learning (MIL) aims to learn the mapping between a bag of instances and the bag-level label. In this paper, we propose a new end-to-end graph neural network (GNN) based algorithm for MIL: we treat each bag as a graph and use GNN to learn the bag embedding, in order to explore the useful structural information among instances in bags. The final graph representation is fed into a classifier for label prediction. Our algorithm is the first attempt to use GNN for MIL. We empirically show that the proposed algorithm achieves the state of the art performance on several popular MIL data sets without losing model interpretability.

研究の動機と目的

MILを「複数のインスタンスからバッグラベルを学習する」という観点と、バッグ内のインスタンス間の関係構造を組み込む動機。
各MILバッグをグラフに変換し、GNNでバッグ埋め込みを学習することを提案。
微分可能プーリング（および注意機構の variant）を用いて分類のための固定サイズのグラフ埋め込みを生成するエンドツーエンド構造を開発。
標準的なMILデータセットで優れた性能を示し、決定的なインスタンスを特定する割り当て行列を介した解釈性を示す。

提案手法

各バッグのインスタンスを距離閾値を用いて無向グラフに変換しエッジを形成する。
グラフ内のノード埋め込みを計算するためにGNNを適用する（GNN_embd）。
微分可能プーリングを用いてグラフを固定サイズの表現へ粗化し、バッグ埋め込みを可能にする（GNN_cluster and pooling）。
オプションとして、粗化後のグラフ上で別のGNNレイヤー（GNN_embd2）を適用し、プーリング（maxまたは連結）を経て最終的なグラフ埋め込みを形成する。
グラフ埋め込みをMLP分類器に入力してバッグレベルの予測を行い、中間段階で補助損失を追加して深い監視を行う。
バックグラウンドとして、ノード埋め込みZ_i overにアテンションすることでバッグ埋め込みを形成する基準となる注意型のグラフ集約バリアントを提供する。

実験結果

リサーチクエスチョン

RQ1MILのバッグをグラフとして扱い、GNNを適用することでバッグレベルの分類精度が従来の独立同分布(i.i.d.)のインスタンスアプローチより改善されるか？
RQ2微分可能プーリングはより優れたバッグ表現を提供し、バッグ内の決定的なインスタンスを解釈可能に特定できるか？
RQ3グラフによるMILにおいて、アテンションベースのグラフ集約は微分可能プーリングと比較してどうか？

主な発見

アルゴリズム	MUSK1	MUSK2	FOX	TIGER	ELEPHANT
mi-Graph	0.889±0.033	0.903±0.039	0.620±0.044	0.860±0.037	0.869±0.035
MI-Net	0.887±0.041	0.859±0.046	0.622±0.038	0.830±0.032	0.862±0.034
MI-Net with DS	0.894±0.042	0.874±0.043	0.630±0.037	0.845±0.039	0.872±0.032
Attention-MIL	0.892±0.040	0.858±0.048	0.615±0.043	0.839±0.022	0.868±0.022
Attention-MIL with gating	0.900±0.050	0.863±0.042	0.603±0.029	0.845±0.018	0.857±0.027
Ours	0.917±0.048	0.892±0.011	0.679±0.007	0.876±0.015	0.903±0.010

提案されたGNNベースのMIL手法は、複数のベースライン（mi-Graph, MI-Net, MI-Net with DS, Attention-MIL, 及び Attention-MIL with gating）より平均精度が高く、5つのMILベンチマークでOursは MUSK1 0.917±0.048、MUSK2 0.892±0.011、FOX 0.679±0.007、TIGER 0.876±0.015、ELEPHANT 0.903±0.010 を達成。
テキスト分類タスクでは、手法はMI-GraphおよびMI-Netのバリアントを相対的に上回る成績を示し、データセット間で平均的な改善を達成。
retinal image (Messidor) の実験では、グラフ入力を用いた手法（Ours-DP）は74.2%の精度と0.77のF1を達成し、いくつかの非グラフ MIL手法を上回る。
微分可能プーリングアプローチは、学習済み割り当てマトリクスによるヒートマップを提供し、決定的なインスタンスの特定と解釈性の保持を可能にする。
グラフベースのMILは、バッグ内のインスタンス間の構造を取り入れることで常に利益を得ており、バッグ内の非iid関係が性能を向上させるという主張を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。