Skip to main content
QUICK REVIEW

[논문 리뷰] Are Pre-trained Language Models Aware of Phrases? Simple but Strong Baselines for Grammar Induction

Taeuk Kim, Jihun Choi|arXiv (Cornell University)|2020. 01. 30.
Natural Language Processing Techniques참고 문헌 43인용 수 46
한 줄 요약

본 논문은 사전학습된 Transformer LM에서 어텐션 분포의 구문 거리를 사용하여 제로샷 구성문 트리를 유도할 수 있음을 보여주며, 강력한 영어 문법 유도 기준을 제시하고 영어 구문에서의 편향을 드러낸다.

ABSTRACT

With the recent success and popularity of pre-trained language models (LMs) in natural language processing, there has been a rise in efforts to understand their inner workings. In line with such interest, we propose a novel method that assists us in investigating the extent to which pre-trained LMs capture the syntactic notion of constituency. Our method provides an effective way of extracting constituency trees from the pre-trained LMs without training. In addition, we report intriguing findings in the induced trees, including the fact that pre-trained LMs outperform other approaches in correctly demarcating adverb phrases in sentences.

연구 동기 및 목표

  • 사전 학습된 언어 모델이 훈련이나 태스크 특화 모듈 없이 구성문과 유사한 구문구조를 포착하는지 조사한다.
  • 주의 기반의 구문 거리(syntactic distance)를 사용하여 사전 학습된 LM으로부터 구성문 트리를 추출한다.
  • PTB와 MNLI에서 영어 문법 유도의 기준선으로 유도된 트리를 평가한다.
  • 어떤 LM 계층과 주의 헤드가 구문구조 정보를 인코딩하는지 분석한다.
  • 유도된 트리에서 영어 구문의 경향을 이해하기 위해(예: 오른쪽 편향) 편향을 탐구한다.

제안 방법

  • 각 단어를 구성하는 하위단어 표현을 평균내어 각 LM 계층에서 단어 수준 벡터를 얻는다.
  • 선택된 거리 함수 f를 사용하여 표현 g(w_i)와 g(w_{i+1})에 대해 인접한 단어 사이의 구문 거리를 d_i를 계산한다.
  • 학습이나 태스크 특화 모듈 없이 Shen 등(2018a,b)을 따라 거리 벡터 d로부터 구성문 트리를 구성한다.
  • 여러 f(COS, L1, L2, JSD, HEL)와 g(계층별 표현, 주의 분포) 옵션을 사용해 성능을 비교한다.
  • 영어 구성 선호를 탐색하기 위해 거리에 오른쪽 편향(bias)을 선택적으로 주입한다(λ · AVG(d) · (1 - 선형항)).
  • 기본 및 대형 구성을 갖는 BERT-base/large, GPT-2, RoBERTa-base/large, XLNet-base/large의 여덟 가지 LM 변형에 대해 평가한다.

실험 결과

연구 질문

  • RQ1사전 학습된 LM이 미세 조정이나 추가 부품 없이 언어학적으로 그럴듯한 구성문 트리를 산출할 수 있는가?
  • RQ2어떤 LM 표현(계층, 주의 헤드, 또는 이들의 앙상블)이 제로샷 구성 유도에 가장 잘 기여하는가?
  • RQ3거리 기반 구문 트리가 바이어스가 추가될 때 영어의 오른쪽 분기 경향을 포착하는가?
  • RQ4유도된 구문해석이 금표 PTB 트리 및 도메인 간 MNLI 파싱과 어떻게 비교되는가?
  • RQ5다양한 LM이 특히 어떤 구문 지식을 포착하는가(예: SBAR, VP, ADJP, ADVP)?

주요 결과

  • 사전 학습된 LMs은 추가 훈련 없이도 영어 문법 유도에서 경쟁력 있는 S-F1 점수를 제공한다.
  • 구문 거리의 오른쪽 편향을 적용하면 SBAR와 VP에서 특히 약 10점 정도 S-F1이 더 향상된다.
  • 주의 기반 거리(G^d)는 종종 숨겨진 표현(G^v)보다 더 나은 구문 해석 결과를 낳는다.
  • XLNet 기반 모델이 계층 전반에서 다른 모델을 자주 능가하며, 중간 계층이 보통 구문 해석에 가장 정보가 많다.
  • ADJP 및 ADVP 범주는 특정 LM에서 특히 잘 포착되며, NP 재현은 강하지만 지배적이지 않다.
  • 바이어스와 더 큰 모델의 사용은 일반적으로 도움되며, 주의 분포의 계층별 앙상블 평균이 개별 헤드보다 종종 더 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.