Skip to main content
QUICK REVIEW

[論文レビュー] Language Models are Open Knowledge Graphs

Chenguang Wang, Xiao Liu|arXiv (Cornell University)|Oct 22, 2020
Topic Modeling参考文献 47被引用数 81
ひとこと要約

MaMaは事前学習済み言語モデルから単一の前方伝播で教師なしにオープン知識グラフを構築し、コーパスの事実をLMの知識と照合して固定スキーマとオープンスキーマにマッピングする。TAC KBPおよびWikidataタスクでOpen IEのベースラインを上回る。

ABSTRACT

This paper shows how to construct knowledge graphs (KGs) from pre-trained language models (e.g., BERT, GPT-2/3), without human supervision. Popular KGs (e.g, Wikidata, NELL) are built in either a supervised or semi-supervised manner, requiring humans to create knowledge. Recent deep language models automatically acquire knowledge from large-scale corpora via pre-training. The stored knowledge has enabled the language models to improve downstream NLP tasks, e.g., answering questions, and writing code and articles. In this paper, we propose an unsupervised method to cast the knowledge contained within language models into KGs. We show that KGs are constructed with a single forward pass of the pre-trained language models (without fine-tuning) over the corpora. We demonstrate the quality of the constructed KGs by comparing to two KGs (Wikidata, TAC KBP) created by humans. Our KGs also provide open factual knowledge that is new in the existing KGs. Our code and KGs will be made publicly available.

研究の動機と目的

  • 事前学習済み言語モデルに蓄えられた知識を直接回収して、人間の監視なしで知識グラフを構築できることを示す。
  • テキストおよびLMの知識からオープンKGを構築する、2段階のMatch-and-MapパイプラインであるMaMaを提案する。
  • マッピングされた事実の品質をオラクルKG(TAC KBPとWikidata)に対して評価し、マッピングされていない(オープンスキーマの)事実を分析する。

提案手法

  • 事実を(head, relation, tail)トリプルとして表現し、前方伝搬のLMパスからのアテンション重みを用いてLMに格納された知識とコーパスの事実を照合して候補となる事実を生成する。
  • LMを微調整せずに、アテンション行列上でビームサーチを用いて最適なhead-tail候補事実を抽出する。
  • 次数に基づく制約、異なるリレーション頻度、連続性制約を用いて候補事実をフィルタする。
  • 候補事実を教師なしのエンティティリンキングとリレーションマッピングを用いて固定KGスキーマへマッピングする。マッピングされない事実はオープKGのオープンスキーマを形成する。
  • 固定スキーマのマッピング済み事実とオープンスキーマの未マップ事実を組み合わせたオープンKGを生成する。
  • マッピング済み事実をオラクルKG(TAC KBP 2013、Wikidata)に対して評価し、未マップ事実の品質とエラー源を分析する。

実験結果

リサーチクエスチョン

  • RQ1事前学習済み言語モデルは、監視なしでKGを構築するのに十分な事実知識を蓄え、開示できるか。
  • RQ2教師なしのMatch-and-Mapパイプラインは、既存のKGスキーマへ事実をどれだけ適切に回収し、オープンスキーマへ拡張できるか。
  • RQ3オープンスキーマの事実の品質はどうか、エンティティリンキングとリレーションマッピングの主なエラー源は何か。

主な発見

方法精度%再現率%F1%
OpenIE 5.156.9814.5423.16
Stanford OpenIE (Angeli et al., 2015)61.5517.3527.07
MaMa -BERT BASE (ours)61.5718.7928.79
MaMa -BERT LARGE (ours)61.6918.9929.05
MaMa -GPT-2 (ours)61.6218.1728.07
MaMa -GPT-2 MEDIUM (ours)62.1018.6528.69
MaMa -GPT-2 LARGE (ours)62.3819.0029.12
MaMa -GPT-2 XL (ours)62.6919.4729.72
  • MaMaは監督なしで、TAC KBPとWikidataの両方でマッピング済み事実の精度を競争力のある水準(>60%)で達成する。
  • TAC KBPでは、MaMa variantsはXLモデルでF1を最大29.72に達成し、Stanford OpenIEをF1で2.6ポイント超上回る。
  • Wikidataでは、MaMa-XL (GPT-2)が22.39のF1を達成し、Stanford OpenIE(16.77)を上回る。
  • より大きなモデル(BERT-LARGE、GPT-2-XL)はより高品質のKGを生み出し、深い/大規模なLMにはより多くの知識が格納されていることを示している。
  • オープンスキーマの未マップ事実はWikidataサンプルで35.3%がtrue、trueな未マップ事実のうち83.2%は部分的に未マップである;残りのエラーの大半はエンティティリンキングとリレーションマッピングの欠落に起因する。
  • 主なエラー源には、spaCyの名詞句ベースのエンティティ検出(リンクによる9.1%のエラー)、欠落するリレーションマッピング(4.5%)、および情報量の少ないリレーション句(Open IE型エラー)が含まれる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。