[논문 리뷰] Commonsense Knowledge Mining from Pretrained Models
요약: 이 논문은 삼중항을 문장으로 변환하고 고정된 사전 학습된 언어 모델로 점수를 매겨 비지도 방법으로 일반상식 지식을 추출하는 것을 제안하며, 데이터베이스 내 벤치마크가 낮더라도 새로운 데이터와 Wikipedia 마이닝에 대해 경쟁력 있는 일반화 성능을 보임.
Inferring commonsense knowledge is a key challenge in natural language processing, but due to the sparsity of training data, previous work has shown that supervised methods for commonsense knowledge mining underperform when evaluated on novel data. In this work, we develop a method for generating commonsense knowledge using a large, pre-trained bidirectional language model. By transforming relational triples into masked sentences, we can use this model to rank a triple's validity by the estimated pointwise mutual information between the two entities. Since we do not update the weights of the bidirectional model, our approach is not biased by the coverage of any one commonsense knowledge base. Though this method performs worse on a test set than models explicitly trained on a corresponding training set, it outperforms these methods when mining commonsense knowledge from new sources, suggesting that unsupervised techniques may generalize better than current supervised approaches.
연구 동기 및 목표
- 그래프 기반 지식베이스의 한계로 인해 일반상식 지식의 필요성에 대한 동기를 제시한다.
- 특정 지식베이스에 대해 미세조정 없이 사전학습된 언어 모델을 활용하는 비지도 접근법을 개발한다.
- 문장 기반 표현과 PMI 기반 점수가 유효한 삼중항과 무효 삼중항을 구분할 수 있는지 테스트한다.
- Wikipedia 마이닝을 포함한 새로운 데이터에 대한 일반화 성능을 평가하고 감독 CKBC 방법과 비교한다.
제안 방법
- 헤드-릴레이션-테일 삼중항을 템플릿과 문법 변환을 사용해 후보 문장으로 변환한다.
- 일관성 랭킹 단계로 사전 학습된 언어 모델을 사용해 가장 일관성 있는 문장을 선택한다.
- 마스킹된 양방향 LM을 사용해 관계(conditioned on the relation)에서 헤드와 테일 간의 가중 PMI를 추정해 삼중항을 점수화한다.
- 테일이 다단어일 때 테일 토큰을 마스킹하고 그리드하게 마스업 해제하여 p(t|h,r)와 p(t|r)를 계산한 뒤 방향 간 PMI를 평균한다.
- 변동성을 줄이기 위해 하이퍼파라미터 람다(lambda)를 사용해 PMI를 가중하고 PMI(h,t|r)와 PMI(t,h|r)의 평균을 활용한다.
- ConceptNet 주도 과제에서 비지도 기준선(Concatenation, Template, Template+Grammar)과 감독 CKBC 모델과 비교한다.
실험 결과
연구 질문
- RQ1사전 학습된 고정 모델이 일반상식 KB에 대해 미세조정 없이도 헤드-릴레이션-테일 삼중항의 타당성을 점수화할 수 있는가?
- RQ2문장 기반 생성과 PMI 기반 점수가 Wikipedia와 같은 소스에서 새로운 일반상식 지식을 마이닝하는 데 일반화될 수 있는가?
- RQ3CKBC에서 문장 기반의 템플릿 구성과 일관성 랭킹의 비교에서 어떤 차이가 나타나는가?
- RQ4문법성 및 의미 충실도가 CKBC 및 Wikipedia 마이닝 작업 성능에 어떤 영향을 미치는가?
- RQ5비지도 접근법이 표준 벤치마크에서 감독 CKBC 방법에 얼마나 근접할 수 있는가?
주요 결과
| 모델 | 작업 1 F1 (CKBC) | 작업 2 품질(4점 만점) |
|---|---|---|
| 비지도 | - | - |
| 연결 | 68.8 | 2.95±0.11 |
| 템플릿 | 72.2 | 2.98±0.11 |
| 템플릿+문법 | 74.4 | 2.56±0.13 |
| 일관성 랭크 | 78.8 | 3.00±0.12 |
| 감독 | - | - |
| DNN | 89.2 | 2.50 |
| Factorized | 89.0 | 2.61 |
| Prototypical | 79.4 | 2.55 |
- 비지도 일관성 랭킹이 과제 1의 F1 78.8을 달성해 ConceptNet 스타일 CKBC에서 감독된 Prototypical의 79.4에 근접한다.
- 과제 2(위키피디아 마이닝)에서 일관성 랭킹은 평균 품질 점수 3.00(lambda=4)을 달성해 그들의 설정에서 표준 감독 방법보다 더 우수한 성능을 보인다.
- 템플릿 기반 방법은 일반적으로 일관성 랭킹 방식에 비해 뒤처지며, 단순 연결(Concatenation) 및 템플릿 방법은 뒤처진다.
- 감독 모델(DNN, Factorized, Prototypical)은 여전히 ConceptNet 테스트 세트에서 비지도 접근법보다 높은 CKBC F1 점수(89.0–89.2)를 달성한다.
- 본 접근법은 ConceptNet-없이 데이터를 학습했음에도 불구하고 Wikipedia와 같은 보지 않은 데이터에 대한 강한 일반화 성능을 보여 가능성이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.