[論文レビュー] KBGAN: Adversarial Learning for Knowledge Graph Embeddings
KBGANは、確率ベースのモデルを生成器として用いて高品質な負例訓練サンプルを生成し、距離ベースのモデルを識別器として用いることで、知識グラフ埋め込みモデルの性能を向上させる画期的な敵対的学習フレームワークを提案する。この手法は外部のオントロジーを必要とせず、複数のデータセットにおいてリンク予測タスクの性能を顕著に向上させる。
We introduce KBGAN, an adversarial learning framework to improve the performances of a wide range of existing knowledge graph embedding models. Because knowledge graphs typically only contain positive facts, sampling useful negative training examples is a non-trivial task. Replacing the head or tail entity of a fact with a uniformly randomly selected entity is a conventional method for generating negative facts, but the majority of the generated negative facts can be easily discriminated from positive facts, and will contribute little towards the training. Inspired by generative adversarial networks (GANs), we use one knowledge graph embedding model as a negative sample generator to assist the training of our desired model, which acts as the discriminator in GANs. This framework is independent of the concrete form of generator and discriminator, and therefore can utilize a wide variety of knowledge graph embedding models as its building blocks. In experiments, we adversarially train two translation-based models, TransE and TransD, each with assistance from one of the two probability-based models, DistMult and ComplEx. We evaluate the performances of KBGAN on the link prediction task, using three knowledge base completion datasets: FB15k-237, WN18 and WN18RR. Experimental results show that adversarial training substantially improves the performances of target embedding models under various settings.
研究の動機と目的
- 知識グラフ埋め込みにおける質の低い負例訓練サンプルの問題に取り組むこと、特に一様にランダムに選ばれた負例がしばしば陽性例と容易に識別可能であるという点に焦点を当てる。
- より優れた負例を用いた敵対的学習により、既存の知識グラフ埋め込みモデルの汎化性能と性能を向上させること。
- 外部制約を必要とせず、任意の知識グラフ埋め込みモデルを生成器または識別器として統合可能な汎用的かつモデルに依存しないフレームワークを設計すること。
- 分散化された生成設定において勾配ベースの最適化を可能にするために、分散還元を施した1ステップ強化学習手法を適用すること。
提案手法
- KBGANは、1つのKGEモデルを生成器として負例を生成し、別のKGEモデルを識別器として本物の負例と生成された負例を区別するGANに類似したフレームワークを採用する。
- 生成器は、学習済みの埋め込みに基づいて潜在的な負例三項対をスコア化する確率ベースのモデル(例:DistMult や ComplEx)である。
- 識別器は、マージン損失に基づくモデル(例:TransE や TransD)であり、真の事実と生成された負例を分類する能力を学習する。
- 生成器の離散的サンプリングステップを経由した勾配の逆伝播を実現するために、分散還元を施した1ステップREINFORCEアルゴリズムが用いられる。
- フレームワークはエンドツーエンドで訓練され、生成器は時間とともに識別器をより困難に挑戦するようなより現実的な負例を生成するよう改善される。
- 訓練の安定性と性能のバランスをとるために、正例ごとの負例数(Ns)などのハイパーパrameterが調整される。
実験結果
リサーチクエスチョン
- RQ1学習済みの生成器を用いた敵対的学習は、知識グラフ埋め込みにおける一様ランダムサンプリングに比べ、より質の高い負例を生成できるか?
- RQ2提案されたKBGANフレームワークは、異なるデータセットにおいて多様な知識グラフ埋め込みモデルの性能を一貫して向上させるか?
- RQ3生成された負例の質は、リンク予測タスクにおける識別器の汎化能力にどのように影響するか?
- RQ4このフレームワークは、アーキテクチャの変更や外部オントロジーを必要とせず、さまざまなKGEモデルに適用可能か?
主な発見
- KBGANは、FB15k-237、WN18、WN18RRの3つのベンチマークデータセットにおいて、TransEおよびTransDの両方の性能を一貫して向上させる。
- 敵対的学習の設定により、すべての設定で平均逆順位(MRR)とhits@10に顕著な向上が見られ、特にWN18RRのような困難なデータセットに対しても改善が確認された。
- 定性的な事例研究により、モデルが生成した負例は一様ランダムな負例よりも意味的により関連性が高く、弱いが妥当な意味的関係を示すエンティティが確認された。
- 検証セットにおいて安定的かつ単調に改善するトレーニングプロセスが観察され、GANに内在する不安定性にもかかわらず収束していることが示された。
- シンプルなモデル(例:TransE や TransD)を識別器として使用してもフレームワークの有効性が保たれるため、既存のKGEアーキテクチャと広く互換性があることが示された。
- 1ステップREINFORCE手法の使用により、離散的生成器を経由した効果的な勾配逆伝播が可能となり、エンドツーエンド学習が現実可能となった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。