QUICK REVIEW

[論文レビュー] Implications of Topological Imbalance for Representation Learning on Biomedical Knowledge Graphs

Stephen Bonner, Ufuk Kirik|arXiv (Cornell University)|Dec 13, 2021

Bioinformatics and Genomic Networks参考文献 57被引用数 23

ひとこと要約

本論文は、非常に高い接続性を持つ「スーパー・ハブ」エンティティによって引き起こされる生物医学的知識グラフにおけるトポロジカルな不均衡が、知識グラフ埋め込み（KGE）モデルにバイアスをもたらし、リンク予測タスクにおいてこれらのエンティティが過大評価されることを調査する。異なるデータセット、モデル、タスクに対しても、KGEは常に高次数のエンティティを高くランク付けするが、生物学的関連性とは無関係であり、ドラッグディスcoveryアプリケーションにおけるグラフ構築とモデル解釈の注意深い検討が求められることを示している。

ABSTRACT

Adoption of recently developed methods from machine learning has given rise to creation of drug-discovery knowledge graphs (KG) that utilize the interconnected nature of the domain. Graph-based modelling of the data, combined with KG embedding (KGE) methods, are promising as they provide a more intuitive representation and are suitable for inference tasks such as predicting missing links. One common application is to produce ranked lists of genes for a given disease, where the rank is based on the perceived likelihood of association between the gene and the disease. It is thus critical that these predictions are not only pertinent but also biologically meaningful. However, KGs can be biased either directly due to the underlying data sources that are integrated or due to modeling choices in the construction of the graph, one consequence of which is that certain entities can get topologically overrepresented. We demonstrate the effect of these inherent structural imbalances, resulting in densely-connected entities being highly ranked no matter the context. We provide support for this observation across different datasets, models as well as predictive tasks. Further, we present various graph perturbation experiments which yield more support to the observation that KGE models can be more influenced by the frequency of entities rather than any biological information encoded within the relations. Our results highlight the importance of data modeling choices, and emphasizes the need for practitioners to be mindful of these issues when interpreting model outputs and during KG composition.

研究の動機と目的

生物医学的知識グラフにおけるトポロジカルな不均衡がKGEモデルのパフォーマンスに与える影響を調査すること。
高接続エンティティが、生物学的関連性にかかわらず、リンク予測タスクにおいて体系的に過剰にランク付けされているかどうかを特定すること。
エンティティの接続性を変更するグラフの摂動に対して、KGEモデルのロバストネスを評価すること。
KG構築およびKGEアプリケーションにおけるトポロジカルバイアスを軽減するための実用的アドバイスを提供すること。

提案手法

公開済みの生物医学的KG（例：Hetionetを含む）を用いて、複数のKGEモデル（例：ComplEx）を評価した。
高次数エンティティからのエッジを再接続することで、グラフの摂動を実施し、ランクの安定性を評価した。
グラフ構造を維持したまま接続性を変更した後の予測エンティティランクの変化を測定した。
異なる疾患およびタスクにおけるエンティティ次数分布と予測スコアとの相関関係を分析した。
ターゲット発見タスクの事例研究を通じて、予測結果とトポロジカル特徴を比較した。
グラフプロジェクション、エッジ信頼度フィルタリング、接続性レベルごとのパフォーマンス評価に関する推奨事項を提案した。

実験結果

リサーチクエスチョン

RQ1生物医学的KGにおけるトポロジカルな不均衡は、KGEベースのリンク予測において、高接続エンティティが体系的に過剰にランク付けされる原因となるか？
RQ2スーパー・ハブエンティティの次数を低下させる構造的摂動に対して、KGEモデルの予測はロバストか？
RQ3生物学的関係の意味論と比較して、エンティティ次数が予測スコアにどの程度支配的か？
RQ4Hits@k や MRR といった標準的な評価指標は、高次数エンティティへのバイアスをどのように反映しないのか？
RQ5KG構築およびKGEアプリケーションにおけるトポロジカル不均衡を軽減するための実用的戦略は何か？

主な発見

KGEモデルは、生物学的関連性とは無関係に、複数のデータセット、モデル、予測タスクにおいて、常に高次数エンティティを過大評価する傾向がある。
グラフ摂動実験の結果、UBCのような高次数遺伝子からのエッジ再接続によってランクの著しい低下が生じ、接続性に強く依存していることが示された。
特にエンティティ次数が予測スコアに与える影響は、生物学的関係の意味論よりも強く、グラフのトポロジカル構造が主要因である。
Hits@k や MRR といった標準評価指標はエンティティ頻度にバイアスを受けており、低次数エンティティにおける真のモデルパフォーマンスを反映していない可能性がある。
生物学的関連性が弱いか非特異的であっても、高次数エンティティはしばしば高いランクに位置づけられることがあり、現在のKGE推論に根本的なバイアスが存在することを示唆している。
本研究は、特にNLPパイプラインからのエッジ作成のデータモデリング選択がトポロジカル不均衡を悪化させ得ることを示しており、慎重な評価が不可欠であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。