QUICK REVIEW

[논문 리뷰] Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model

Wenhan Xiong, Jingfei Du|arXiv (Cornell University)|2019. 12. 19.

Topic Modeling참고 문헌 34인용 수 156

한 줄 요약

본 논문은 약지도(supervised가 아닌) 사전학습 목표 WKLM을 도입하여 비구조화 텍스트로부터 엔티티 중심의 지식 학습을 강제하고, BERT 기반의 강화된 엔티티 관련 QA 및 미세한 엔티티 타이핑 성능을 개선한다. 위키피디아의 엔티티 대체 학습을 통해 추가 다운스트림 메모리나 아키텍처 변경 없이 실제 세계 엔티티 지식을 모델에 주입한다.

ABSTRACT

Recent breakthroughs of pretrained language models have shown the effectiveness of self-supervised learning for a wide range of natural language processing (NLP) tasks. In addition to standard syntactic and semantic NLP tasks, pretrained models achieve strong improvements on tasks that involve real-world knowledge, suggesting that large-scale language modeling could be an implicit method to capture knowledge. In this work, we further investigate the extent to which pretrained models such as BERT capture knowledge using a zero-shot fact completion task. Moreover, we propose a simple yet effective weakly supervised pretraining objective, which explicitly forces the model to incorporate knowledge about real-world entities. Models trained with our new objective yield significant improvements on the fact completion task. When applied to downstream tasks, our model consistently outperforms BERT on four entity-related question answering datasets (i.e., WebQuestions, TriviaQA, SearchQA and Quasar-T) with an average 2.7 F1 improvements and a standard fine-grained entity typing dataset (i.e., FIGER) with 5.7 accuracy gains.

연구 동기 및 목표

프리트레인드 모델이 실제 세계 엔티티 지식을 암묵적으로 포착하는지 여부를 동기부여하고 0샷 사실 완성 태스크를 통해 그 정도를 정량화한다.
약지도 학습 지식 학습 목표를 도입하여 비구조화 텍스트에서 모델에게 실제 세계 엔티티에 대해 명시적으로 학습시킨다.
지식이 풍부한 프리트레이닝이 표준 BERT 벤치마크를 넘어 엔티티 관련 QA 데이터셋과 미세한 엔티티 타이핑을 개선함을 보여준다.

제안 방법

엔티티 대체를 통한 약지도 기반 엔티티 중심 프리트레이닝: 동일 유형의 엔티티로 언급을 대체하고 대체 여부를 모델이 탐지하도록 학습한다.
엔티티의 경계 단어 표현을 사용하여 P(e|C)를 예측하고 참 지식 진술과 잘못된 지식을 구분한다.
지식 학습 목표를 MLM 손실과 결합하여 위키피디아와 BooksCorpus에서 다중 작업 프리트레이닝으로 학습한다.
다운스트림 태스크에서 추가 메모리나 아키텍처 변경 없이 표준 BERT 아키텍처를 유지한다.
WKLM 대 MLM만 비교 및 확장 MLM 대조 실험을 통해 지식 학습 기여를 고립시킨다.

실험 결과

연구 질문

RQ1대규모 프리트레이닝이 표준 MLM 목표를 넘어 명시적 엔티티 수준 지식을 암호화할 수 있는가?
RQ2약지도 지식 학습 목표가 외부 지식 베이스 없이 엔티티 관련 태스크를 개선하는가?
RQ3WKLM은 0샷 팩트 완성 및 다운스트림 엔티티 중심 QA 및 타이핑 태스크에서 BERT 및 GPT-2와 비교하여 어떻게 수행하는가?
RQ4MLM 비율과 별도로 엔티티 대체 목표가 다운스트림 성능에 미치는 영향은 무엇인가?

주요 결과

Relation Name	# of Candidates	# of Answers	Model	BERT-base	BERT-large	GPT-2	Ours	Average Hits@10
HasChild (P40)	906	3.8	HasChild	9.00	6.00	20.5	63.5	-
NotableWork (P800)	901	5.2	NotableWork	1.88	2.56	2.39	4.10	-
CapitalOf (P36)	820	2.2	CapitalOf	1.87	1.55	15.8	49.1	-
FoundedBy (P112)	798	3.7	FoundedBy	2.44	1.93	8.65	24.2	-
Creator (P170)	536	3.6	Creator	4.57	4.57	7.27	9.84	-
PlaceOfBirth (P19)	497	1.8	PlaceOfBirth	19.2	30.9	8.95	23.2	-
LocatedIn (P131)	382	1.9	LocatedIn	13.2	52.5	21.0	61.1	-
EducatedAt (P69)	374	4.1	EducatedAt	9.10	7.93	11.0	16.9	-
PlaceOfDeath (P20)	313	1.7	PlaceOfDeath	43.0	42.6	8.83	26.5	-
Occupation (P106)	190	1.4	Occupation	8.58	10.7	9.17	10.7	-
Average Hits@10	-	-	-	11.3	16.1	16.3	28.9	-

WKLM은 0샷 평가에서 10개 사실 완성 관계 중 8개에서 최상의 결과를 달성한다.
오픈 도메인 QA에서 WKLM은 순위 점수를 사용하지 않을 때 엔티티 관련 데이터셋에서 BERT보다 평균 2.7 F1 포인트 향상; 순위화가 가능하면 세 데이터셋에서 거의 최첨단 수준의 성능에 도달한다.
미세한 엔티티 타입팅(FIGER)에서 WKLM은 정확도 60.21, Ma-F1 81.99, Mi-F1 77.00으로 새 최첨단 성능을 달성한다.
아블레이션은 WKLM 목표를 MLM과 결합할 때 다운스트림 성능이 최적으로 나타나며, MLM 마스킹 비율이 너무 높을 경우(15%) 지식 학습이 저해될 수 있음을 시사한다.
WKLM은 파인튜닝 동안 추가 데이터 처리나 메모리가 필요 없고 원래의 BERT 아키텍처와 함께 작동한다.
ER NIE와 비교했을 때 WKLM은 FIGER에서 더 큰 절대적 이득을 제공하며, 외부 KB 없이 텍스트 기반 지식 추출이 효과적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.