[論文レビュー] Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model
本論文は WKLM を導入し、構造化されていないテキストからエンティティ中心の知識学習を強制する弱教師あり事前学習目的を提案する。これにより、エンティティ関連の QA および細粒度エンティティ型付けが BERT の基準モデルより改善される。追加の下流メモリやアーキテクチャ変更を要することなく、Wikipedia のエンティティ置換訓練を用いて実世界のエンティリ知識を注入する。
Recent breakthroughs of pretrained language models have shown the effectiveness of self-supervised learning for a wide range of natural language processing (NLP) tasks. In addition to standard syntactic and semantic NLP tasks, pretrained models achieve strong improvements on tasks that involve real-world knowledge, suggesting that large-scale language modeling could be an implicit method to capture knowledge. In this work, we further investigate the extent to which pretrained models such as BERT capture knowledge using a zero-shot fact completion task. Moreover, we propose a simple yet effective weakly supervised pretraining objective, which explicitly forces the model to incorporate knowledge about real-world entities. Models trained with our new objective yield significant improvements on the fact completion task. When applied to downstream tasks, our model consistently outperforms BERT on four entity-related question answering datasets (i.e., WebQuestions, TriviaQA, SearchQA and Quasar-T) with an average 2.7 F1 improvements and a standard fine-grained entity typing dataset (i.e., FIGER) with 5.7 accuracy gains.
研究の動機と目的
- 事前学習済みモデルが現実世界のエンティティ知識を暗黙的に捉えているかを動機づけ、ゼロショット事実完了タスクを通じてその程度を定量化する。
- 非構造化テキストから現実世界のエンティティについて explicitly 学習させる弱教師あり知識学習目的を導入する。
- 知識を豊富にした事前学習が標準的な BERT ベースラインを超えるエンティティ関連の QA データセットと細粒度エンティティ型付けを改善することを示す。
提案手法
- エンティティ中心の弱教師付き事前学習:同タイプのエンティティで言及を置換し、モデルに置換を検知させる訓練を行う。
- エンティティの境界語表現を用いて P(e|C) を予測し、真の知識 statement と偽の知識 statement を識別する。
- 知識学習目的を MLM 損失と組み合わせ、Wikipedia と BooksCorpus 上でマルチタスクの事前学習を実施する。
- 下流タスクの追加メモリやアーキテクチャ変更なしで標準の BERT アーキテクチャを維持する。
- WKLM と MLM の組み合わせ、及び MLM の拡張ベースラインと比較するアブレーションを実施して、知識学習の貢献を分離する。
実験結果
リサーチクエスチョン
- RQ1大規模事前学習は標準 MLM 目的を超える明示的エンティティレベル知識をエンコードできるか。
- RQ2弱教師あり知識学習目的は外部知識ベースなしでエンティティ関連タスクを改善するか。
- RQ3WKLM はゼロショット事実完了と下流のエンティティ中心 QA・型付けタスクで BERT や GPT-2 と比較してどうか。
- RQ4下流パフォーマンスに対する MLM 比率と、別個にエンティティ置換目的の影響はどうか。
主な発見
| 関係名 | 候補数 | 回答数 | モデル | BERT-base | BERT-large | GPT-2 | Ours | 平均ヒット@10 |
|---|---|---|---|---|---|---|---|---|
| HasChild (P40) | 906 | 3.8 | HasChild | 9.00 | 6.00 | 20.5 | 63.5 | - |
| NotableWork (P800) | 901 | 5.2 | NotableWork | 1.88 | 2.56 | 2.39 | 4.10 | - |
| CapitalOf (P36) | 820 | 2.2 | CapitalOf | 1.87 | 1.55 | 15.8 | 49.1 | - |
| FoundedBy (P112) | 798 | 3.7 | FoundedBy | 2.44 | 1.93 | 8.65 | 24.2 | - |
| Creator (P170) | 536 | 3.6 | Creator | 4.57 | 4.57 | 7.27 | 9.84 | - |
| PlaceOfBirth (P19) | 497 | 1.8 | PlaceOfBirth | 19.2 | 30.9 | 8.95 | 23.2 | - |
| LocatedIn (P131) | 382 | 1.9 | LocatedIn | 13.2 | 52.5 | 21.0 | 61.1 | - |
| EducatedAt (P69) | 374 | 4.1 | EducatedAt | 9.10 | 7.93 | 11.0 | 16.9 | - |
| PlaceOfDeath (P20) | 313 | 1.7 | PlaceOfDeath | 43.0 | 42.6 | 8.83 | 26.5 | - |
| Occupation (P106) | 190 | 1.4 | Occupation | 8.58 | 10.7 | 9.17 | 10.7 | - |
| Average Hits@10 | - | - | - | 11.3 | 16.1 | 16.3 | 28.9 | - |
- WKLM はゼロショット評価で 10 のうち 8 の事実完了関係で最高結果を達成。
- オープンドメイン QA では、WKLM はランキングスコアを用いない場合にエンティティ関連データセットで BERT を平均 2.7 F1 点上回る;ランキングを用いると 3 つのデータセットで最新性能に近い結果を達成する。
- 細粒度エンティティ型付け(FIGER)では、WKLM は精度 60.21、Ma-F1 81.99、Mi-F1 77.00 で新しい最先端を設定。
- アブレーションにより、WKLM 目的を MLM と組み合わせると下流性能が最も良くなり、 MLM のマスキング比率が高すぎる(15%)と知識学習が低下する可能性があることが示された。
- WKLM はファインチューニング時に追加データ処理やメモリを要せず、元の BERT アーキテクチャで動作する。
- ERNIE と比較して、WKLM は FIGER でより大きな絶対的な利得を提供しており、テキストベースの知識抽出が外部 KB なしでも効果的であることを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。