[논문 리뷰] Language Models are Open Knowledge Graphs
MaMa는 사전학습 언어 모델에서 비지도 방식으로 단일 순전파를 통해 개방 지식 그래프를 구성하고, 말뭉치의 사실을 LM 지식과 일치시키고 이를 고정 스키마와 열린 스키마에 매핑합니다; TAC KBP와 Wikidata 과제에서 오픈 IE 벤치마크를 능가합니다.
This paper shows how to construct knowledge graphs (KGs) from pre-trained language models (e.g., BERT, GPT-2/3), without human supervision. Popular KGs (e.g, Wikidata, NELL) are built in either a supervised or semi-supervised manner, requiring humans to create knowledge. Recent deep language models automatically acquire knowledge from large-scale corpora via pre-training. The stored knowledge has enabled the language models to improve downstream NLP tasks, e.g., answering questions, and writing code and articles. In this paper, we propose an unsupervised method to cast the knowledge contained within language models into KGs. We show that KGs are constructed with a single forward pass of the pre-trained language models (without fine-tuning) over the corpora. We demonstrate the quality of the constructed KGs by comparing to two KGs (Wikidata, TAC KBP) created by humans. Our KGs also provide open factual knowledge that is new in the existing KGs. Our code and KGs will be made publicly available.
연구 동기 및 목표
- knowledge stored in pre-trained language models can be directly recovered to build knowledge graphs without human supervision.
- Propose MaMa, a two-stage Match-and-Map pipeline to construct open KGs from text and LM knowledge.
- Evaluate the quality of mapped facts against oracle KGs (TAC KBP and Wikidata) and analyze unmapped (open-schema) facts.
제안 방법
- facts를 (head, relation, tail) 트리플로 표현하고, forward LM 패스를 통한 주의 가중치를 사용하여 코퍼스 사실과 LM 저장 지식을 매칭해 후보 사실을 생성합니다.
- LM를 미세조정하지 않고 주의 행렬을 통해 최선의 head-tail 후보 사실을 추출하기 위해 빔 검색을 사용합니다.
- 차수 기반, 서로 다른 관계 빈도, 인접성 제약을 사용해 후보 사실을 필터링합니다.
- 비지도 엔터티 매핑 및 관계 매핑을 통해 후보 사실을 고정 KG 스키마로 매핑합니다; 매핑되지 않은 사실은 열린 스키마로 형성된 오픈 KG를 구성합니다.
- 고정 스키마에 매핑된 사실과 열린 스키마의 매핑되지 않은 사실을 결합한 오픈 KG를 생성합니다.
- 매핑된 사실을 oracle KG들(TAC KBP 2013, Wikidata)과 대조 평가하고 매핑되지 않은 사실의 질과 오류 원인을 분석합니다.
실험 결과
연구 질문
- RQ1사전 학습된 언어 모델이 감독 없이 KG를 구성하기에 충분한 사실 지식을 저장하고 드러낼 수 있는가?
- RQ2비지도 매칭-맵 파이프라인이 기존 KG 스키마에 사실을 얼마나 잘 회수하고 열린 스키마로 확장할 수 있는가?
- RQ3열린 스키마 사실의 질은 어떠하며 엔터티 매핑과 관계 매핑의 주요 오류 원인은 무엇인가?
주요 결과
| 방법 | 정밀도% | 재현율% | F1% |
|---|---|---|---|
| OpenIE 5.1 | 56.98 | 14.54 | 23.16 |
| Stanford OpenIE (Angeli et al., 2015) | 61.55 | 17.35 | 27.07 |
| MaMa -BERT BASE (ours) | 61.57 | 18.79 | 28.79 |
| MaMa -BERT LARGE (ours) | 61.69 | 18.99 | 29.05 |
| MaMa -GPT-2 (ours) | 61.62 | 18.17 | 28.07 |
| MaMa -GPT-2 MEDIUM (ours) | 62.10 | 18.65 | 28.69 |
| MaMa -GPT-2 LARGE (ours) | 62.38 | 19.00 | 29.12 |
| MaMa -GPT-2 XL (ours) | 62.69 | 19.47 | 29.72 |
- MaMa는 TAC KBP와 Wikidata에서 매핑된 사실에 대해 감독 없이도 정밀도 60%를 상회하는 경쟁력 있는 성능을 달성합니다.
- TAC KBP에서 MaMa 변형은 XL 모델로 F1이 최대 29.72에 도달하며 Stanford OpenIE보다 F1에서 2.6점 이상 높게 나타났습니다.
- Wikidata에서 MaMa-XL (GPT-2)은 22.39 F1를 달성하여 Stanford OpenIE(16.77)를 상회합니다.
- 더 큰 모델(BERT-LARGE, GPT-2-XL)은 더 높은 품질의 KG를 생성하여 더 깊고 큰 LM에 더 많은 지식이 저장되어 있음을 시사합니다.
- 열린 스키마의 매핑되지 않은 사실은 Wikidata 샘플에서 35.3%가 사실(True)로 나타났고, 사실의 83.2%가 부분적으로 매핑되지 않았으며, 남은 오류의 대부분은 엔터티 매핑과 누락된 관계 매핑에서 비롯됩니다.
- 주요 오류 원인으로는 spaCy 명사구 기반 엔터티 탐지의 링크 오류(9.1%), 누락된 관계 매핑(4.5%), 일부 비정보적 관계 구문(Open IE-type 오류) 등이 있습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.