QUICK REVIEW

[論文レビュー] Commonsense Knowledge Mining from Pretrained Models

Joshua Feldman, Joe Davison|arXiv (Cornell University)|Sep 2, 2019

Topic Modeling参考文献 17被引用数 44

ひとこと要約

本論文は、 triples を文に変換し、固定事前学習済み言語モデルでスコア付けすることで、監視なしの常識知識抽出手法を提案し、データベース内のベンチマークが低いにもかかわらず、新しいデータおよび Wikipedia のマイニングへの一般化性能が競合的であることを示す。

ABSTRACT

Inferring commonsense knowledge is a key challenge in natural language processing, but due to the sparsity of training data, previous work has shown that supervised methods for commonsense knowledge mining underperform when evaluated on novel data. In this work, we develop a method for generating commonsense knowledge using a large, pre-trained bidirectional language model. By transforming relational triples into masked sentences, we can use this model to rank a triple's validity by the estimated pointwise mutual information between the two entities. Since we do not update the weights of the bidirectional model, our approach is not biased by the coverage of any one commonsense knowledge base. Though this method performs worse on a test set than models explicitly trained on a corresponding training set, it outperforms these methods when mining commonsense knowledge from new sources, suggesting that unsupervised techniques may generalize better than current supervised approaches.

研究の動機と目的

カバレッジが限られたグラフベースの知識ベースを超える常識知識の必要性を動機づける。
特定の知識ベースに対してファインチューニングせず、事前学習済み言語モデルを活用した監視なしのアプローチを開発する。
文から導かれた表現と PMI に基づくスコアリングが、有効なトリプルと無効なトリプルを判別できるかを検証する。
新規データへの一般化、とくに Wikipedia からのマイニングを含むを評価し、教師あり CKBC 手法と比較する。

提案手法

head-relation-tail トリプルをテンプレートと文法変換を用いて候補文に変換する。
整合性ランキングのステップとして、事前学習済み言語モデルを用いて最も整合性の高い文を選択する。
関係に条件付けた head と tail の重み付き PMI を、マスクされた双方向 LM を用いて推定し、トリプルをスコアリングする。
tail が複数語の場合に tail トークンをマスキングして貪欲にアンマスクすることで p(t|h,r) および p(t|r) を計算し、次に方向ごとの PMI を平均する。
分散を抑えるため、ハイパーパラメータ lambda で PMI を重み付けし、PMI(h,t|r) と PMI(t,h|r) を平均する。
ConceptNet ベースのタスクで、監視なしのベースライン（Concatenation, Template, Template+Grammar）と、監視付き CKBC モデルと比較する。

実験結果

リサーチクエスチョン

RQ1常識KBでファインチューニングなしの固定された事前学習済み言語モデルが、head-relation-tailトリプルの妥当性をスコア付けできるか？
RQ2文ベースの生成と PMI ベースのスコアリングは、Wikipedia などのソースから新しい常識知識をマイニングする一般化に繋がるか？
RQ3CKBC において、整合性ランキングはテンプレートベースの文構築とどう比較されるか？
RQ4CKBC と Wikipedia マイニングにおける文法性と意味忠実度がタスク性能に与える影響は？
RQ5標準ベンチマークで、監視なしアプローチはどれだけ supervise d CKBC 手法に近づけるか？

主な発見

モデル	タスク1 F1 (CKBC)	タスク2 品質 (4点中)
Unsupervised	-	-
Concatenation	68.8	2.95±0.11
Template	72.2	2.98±0.11
Templ.+Grammar	74.4	2.56±0.13
Coherency Rank	78.8	3.00±0.12
Supervised	-	-
DNN	89.2	2.50
Factorized	89.0	2.61
Prototypical	79.4	2.55

監視なしの整合性ランキングはタスク1の F1=78.8を達成し、ConceptNet風CKBCでの監視付きプロトタイピカル手法79.4に近づく。
タスク2（Wikipediaマイニング）では、整合性ランキングが平均品質スコア3.00（lambda=4）を得て、彼らの設定で標準の教師あり手法を上回る。
テンプレートベースの手法は一般に整合性ランキング手法に劣る。シンプルなConcatenationとTemplate手法はそれより遅れる。
教師ありモデル（DNN、Factorized、Prototypical）は依然として ConceptNet テストセットでの CKBC F1 スコアが 89.0–89.2 で、監視なしアプローチより高い。
このアプローチは ConceptNet なしデータで学習したにも関わらず、未見データ（Wikipedia）への強い一般化を示し、既存KBを超えたマイニングの可能性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。