QUICK REVIEW

[논문 리뷰] K-BERT: Enabling Language Representation with Knowledge Graph

Weijie Liu, Peng Zhou|arXiv (Cornell University)|2019. 09. 17.

Topic Modeling참고 문헌 21인용 수 84

한 줄 요약

K-BERT는 지식 그래프의 도메인 지식을 BERT 유사 모델에 주입하는 방법으로, soft-position과 visible matrix를 사용해 지식 영향력을 제어하고, 추가 사전 학습 없이 도메인 특화 NLP 작업을 개선한다.

ABSTRACT

Pre-trained language representation models, such as BERT, capture a general language representation from large-scale corpora, but lack domain-specific knowledge. When reading a domain text, experts make inferences with relevant knowledge. For machines to achieve this capability, we propose a knowledge-enabled language representation model (K-BERT) with knowledge graphs (KGs), in which triples are injected into the sentences as domain knowledge. However, too much knowledge incorporation may divert the sentence from its correct meaning, which is called knowledge noise (KN) issue. To overcome KN, K-BERT introduces soft-position and visible matrix to limit the impact of knowledge. K-BERT can easily inject domain knowledge into the models by equipped with a KG without pre-training by-self because it is capable of loading model parameters from the pre-trained BERT. Our investigation reveals promising results in twelve NLP tasks. Especially in domain-specific tasks (including finance, law, and medicine), K-BERT significantly outperforms BERT, which demonstrates that K-BERT is an excellent choice for solving the knowledge-driven problems that require experts.

연구 동기 및 목표

언어 표현에서 도메인 지식의 필요성을 개방형 도메인 사전학습을 넘어서 동기 부여한다.
구조화된 지식을 주입하되 KG 데이터에 대한 전체 사전 학습을 요구하지 않는 KG-enabled BERT 변형을 제안한다.
지식 노이즈를 완화하고 문장의 의미를 보존하기 위한 메커니즘(소프트 포지션 및 가시성 행렬)을 제시한다.
여러 개의 개방형 도메인 및 도메인 특화 중국어 NLP 작업 전반에서 유효성을 시연한다.

제안 방법

K-BERT를 도입하여 사전 학습된 BERT를 로드하고 입력에 KG 삼중항을 보강하여 지식이 풍부한 문장 트리를 형성한다.
지식 계층을 사용해 문장의 엔티티에 대해 KG 삼중항을 질의(K-Query)하고 이를 문장에 주입(K-Inject)한다.
문장 트리를 임베딩 층을 통해 토큰 수준 임베딩으로 변환하고 구조를 보존하기 위해 소프트 포지션 임베딩을 채택한다.
가시성 행렬이 있는 시각 계층(seeing layer)을 사용해 어떤 토큰이 어떤 토큰들을 주의할 수 있는지 조절하며, 가시성에 따라 자기 어텐션을 제한하는 Mask-Transformer로 구현한다.
BERT와 같은 파라미터 예산(12_layers, 12_heads, 768 hidden)으로 학습하고 KG는 미세조정/추론 시에만 활성화하며 KG 사전 학습은 하지 않는다.
개방형 도메인과 도메인 특화 도메인(finance, law, medicine)을 아우르는 12개 중국어 NLP 작업에서 평가한다.

실험 결과

연구 질문

RQ1KG-enabled 주입이 KG 데이터에 대한 재사전 학습 없이도 도메인 특화 언어 이해를 향상시킬 수 있는가?
RQ2KG 지식의 통합이 개방형 도메인과 도메인 특화 작업의 성능에 어떤 영향을 미치는가?
RQ3통제 가능한 메커니즘(소프트 포지션 및 가시성 행렬)이 지식 노이즈를 완화하면서 문장 의미를 보존하거나 향상시키는가?
RQ4어떤 유형의 KG(백과사전형 대 언어 중심 KG)가 서로 다른 작업 범주(NLI, QA, NER, 감정)에서 더 유익한가?
RQ5K-BERT가 표준 BERT 사전 학습 파라미터와 호환되며 자원 제약 환경에서 실용적인가?

주요 결과

K-BERT는 도메인 특화 작업(금융, 법률, 의학)에서 BERT보다 우수한 성능을 보이며 KG-enabled 지식의 가치를 검증한다. CN-DBpedia(백과사전형 KG)는 Q&A 및 NER 작업을 개선하고 HowNet(언어 중심 KG)은 XNLI 및 LCQMC와 같은 의미론적 유사성 작업을 더 잘 지원한다. WebtextZh는 KG와 함께 사용할 때 추가 이점을 제공한다.
특정 도메인 결과에서 CN-DBpedia를 사용한 K-BERT는 MSRA-NER F1을 93.6%에서 95.7%로 향상시키며(약 +2.1 포인트), 다른 도메인 작업에서도 유사하게 향상된다. MedicalKG는 Medicine_NER에서 의미 있는 이점을 준다.
추출 연구에서 소프트 포지션이나 가시성 행렬을 제거하면 성능이 감소하고, 가시성 행렬을 제거하면 어떤 경우에는 BERT보다 성능이 떨어질 수 있어 KN 완화가 필수적임을 확인한다.
K-BERT는 Law_Q&A에서 BERT보다 더 빠르게 수렴하며(에폭 2에서 최고치, BERT는 에폭 4), 가시성 행렬과 소프트 포지션 메커니즘을 통해 KN에 대해 더 견고하게 유지된다.
KG 특화 사전 학습 없이도 기존의 BERT 사전 학습 파라미터를 활용할 수 있어 자원이 제한된 환경에서의 실제 도입이 용이하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.