[논문 리뷰] Language Models as Knowledge Bases?
이 논문은 사전 학습된 언어 모델(BERT, ELMo 등)이 미세조정 없이 얼마나 사실적 지식과 상식 지식을 저장하고 있는지 분석하고, LAMA 프로브를 사용하여 다중 지식원에서 기계적 지식 기반(KB)과 개방 도메인 QA 벤치마크와 비교합니다.
Recent progress in pretraining language models on large textual corpora led to a surge of improvements for downstream NLP tasks. Whilst learning linguistic knowledge, these models may also be storing relational knowledge present in the training data, and may be able to answer queries structured as "fill-in-the-blank" cloze statements. Language models have many advantages over structured knowledge bases: they require no schema engineering, allow practitioners to query about an open class of relations, are easy to extend to more data, and require no human supervision to train. We present an in-depth analysis of the relational knowledge already present (without fine-tuning) in a wide range of state-of-the-art pretrained language models. We find that (i) without fine-tuning, BERT contains relational knowledge competitive with traditional NLP methods that have some access to oracle knowledge, (ii) BERT also does remarkably well on open-domain question answering against a supervised baseline, and (iii) certain types of factual knowledge are learned much more readily than others by standard language model pretraining approaches. The surprisingly strong ability of these models to recall factual knowledge without any fine-tuning demonstrates their potential as unsupervised open-domain QA systems. The code to reproduce our analysis is available at https://github.com/facebookresearch/LAMA.
연구 동기 및 목표
- 미세조정 없이 대형 사전학습 언어 모델에 저장된 관계 지식의 범위를 평가한다.
- 다양한 지식 소스에 걸쳐 BERT, ELMo 및 기타 모델을 상징적 KB 및 QA 벤치마크와 비교한다.
- 사전 학습으로 가장 쉽게 학습되는 지식 종류(엔터티 관계, 상식, QA)를 식별한다.
- 감독된 baselines에 비해 언어 모델의 개방 도메인 QA 능력을 평가한다.
제안 방법
- 사실 및 상식 지식을 테스트하기 위해 LAMA(LAnguage Model Analysis) 프로브를 도입한다.
- 지식 소스(Google-RE, T-REx, ConceptNet, SQuAD)를 구성하고 사실을 클로즈 템플릿으로 변환하여 모델 질의를 수행한다.
- 일관된 21K-토큰 어휘를 사용하여 여러 사전 학습 모델(fairseq-fconv, Transformer-XL, ELMo 변형, BERT-base, BERT-large)을 평가한다.
- 랭크 기반(P@k) 지표를 사용하고 테스트 중 후보에서 유효한 객체를 제거하여 1대 다 관계를 고려한다.
- 빈도수와 RE(관계 추출) 시스템(오라클 연결 여부)에 따른 벤치마크 및 DrQA 개방 도메인 QA와 비교한다.
실험 결과
연구 질문
- RQ1미세조정 없이 사전 학습된 언어 모델은 얼마나 많은 관계 지식과 상식 지식을 저장하고 있는가?
- RQ2모델의 크기와 아키텍처(BERT-large vs. BERT-base vs. ELMo 변형)가 지식 소스 전반에서 지식 회상에 어떤 영향을 미치는가?
- RQ3LMs가 검색한 지식은 상징적 KB 및 개방 도메인 QA 벤치마크와 어떻게 비교되는가?
- RQ4특정 관계 유형(1대1 vs. N대 M)이 미리 학습된 모델에 의해 더 잘 포착되는가?
- RQ5미세조정 없이 LMs의 개방 도메인 QA 성능이 감독된 시스템에 근접할 수 있는가?
주요 결과
- BERT-large 및 BERT-base는 다른 모델을 능가하고 때로는 Google-RE 및 T-REx 과제에서 오라클 기반 지식 추출에 필적하기도 한다.
- 일부 관계 유형(특히 1대1)에 대해 사실 지식 회상은 강하지만 N대 M 관계에는 약하다.
- BERT-large는 개방 도메인 클로즈 QA에서 탁월하여 P@10에서 57.1% 정밀도@10를 달성하고 감독 DrQA 시스템의 63.5%에 비해 차이가 작다.
- ELMo-5.5B 및 BERT 변형은 질의 문구에 대한 견고성을 보이지만 성능은 학습 데이터 노출과 상관관계가 있다(예: 학습 데이터의 객체 언급).
- 전반적으로 사전 학습된 LM은 상당한 관계 및 상식 지식을 저장하여 명시적 미세조정이나 검색 파이프라인 없이도 거의 KB 성능에 근접하게 만든다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.