QUICK REVIEW

[논문 리뷰] Are Pre-trained Language Models Aware of Phrases? Simple but Strong Baselines for Grammar Induction

Taeuk Kim, Jihun Choi|arXiv (Cornell University)|2020. 01. 30.

Natural Language Processing Techniques참고 문헌 43인용 수 46

한 줄 요약

본 논문은 사전학습된 Transformer LM에서 어텐션 분포의 구문 거리를 사용하여 제로샷 구성문 트리를 유도할 수 있음을 보여주며, 강력한 영어 문법 유도 기준을 제시하고 영어 구문에서의 편향을 드러낸다.

ABSTRACT

With the recent success and popularity of pre-trained language models (LMs) in natural language processing, there has been a rise in efforts to understand their inner workings. In line with such interest, we propose a novel method that assists us in investigating the extent to which pre-trained LMs capture the syntactic notion of constituency. Our method provides an effective way of extracting constituency trees from the pre-trained LMs without training. In addition, we report intriguing findings in the induced trees, including the fact that pre-trained LMs outperform other approaches in correctly demarcating adverb phrases in sentences.

연구 동기 및 목표

사전 학습된 언어 모델이 훈련이나 태스크 특화 모듈 없이 구성문과 유사한 구문구조를 포착하는지 조사한다.
주의 기반의 구문 거리(syntactic distance)를 사용하여 사전 학습된 LM으로부터 구성문 트리를 추출한다.
PTB와 MNLI에서 영어 문법 유도의 기준선으로 유도된 트리를 평가한다.
어떤 LM 계층과 주의 헤드가 구문구조 정보를 인코딩하는지 분석한다.
유도된 트리에서 영어 구문의 경향을 이해하기 위해(예: 오른쪽 편향) 편향을 탐구한다.

제안 방법

각 단어를 구성하는 하위단어 표현을 평균내어 각 LM 계층에서 단어 수준 벡터를 얻는다.
선택된 거리 함수 f를 사용하여 표현 g(w_i)와 g(w_{i+1})에 대해 인접한 단어 사이의 구문 거리를 d_i를 계산한다.
학습이나 태스크 특화 모듈 없이 Shen 등(2018a,b)을 따라 거리 벡터 d로부터 구성문 트리를 구성한다.
여러 f(COS, L1, L2, JSD, HEL)와 g(계층별 표현, 주의 분포) 옵션을 사용해 성능을 비교한다.
영어 구성 선호를 탐색하기 위해 거리에 오른쪽 편향(bias)을 선택적으로 주입한다(λ · AVG(d) · (1 - 선형항)).
기본 및 대형 구성을 갖는 BERT-base/large, GPT-2, RoBERTa-base/large, XLNet-base/large의 여덟 가지 LM 변형에 대해 평가한다.

실험 결과

연구 질문

RQ1사전 학습된 LM이 미세 조정이나 추가 부품 없이 언어학적으로 그럴듯한 구성문 트리를 산출할 수 있는가?
RQ2어떤 LM 표현(계층, 주의 헤드, 또는 이들의 앙상블)이 제로샷 구성 유도에 가장 잘 기여하는가?
RQ3거리 기반 구문 트리가 바이어스가 추가될 때 영어의 오른쪽 분기 경향을 포착하는가?
RQ4유도된 구문해석이 금표 PTB 트리 및 도메인 간 MNLI 파싱과 어떻게 비교되는가?
RQ5다양한 LM이 특히 어떤 구문 지식을 포착하는가(예: SBAR, VP, ADJP, ADVP)?

주요 결과

사전 학습된 LMs은 추가 훈련 없이도 영어 문법 유도에서 경쟁력 있는 S-F1 점수를 제공한다.
구문 거리의 오른쪽 편향을 적용하면 SBAR와 VP에서 특히 약 10점 정도 S-F1이 더 향상된다.
주의 기반 거리(G^d)는 종종 숨겨진 표현(G^v)보다 더 나은 구문 해석 결과를 낳는다.
XLNet 기반 모델이 계층 전반에서 다른 모델을 자주 능가하며, 중간 계층이 보통 구문 해석에 가장 정보가 많다.
ADJP 및 ADVP 범주는 특정 LM에서 특히 잘 포착되며, NP 재현은 강하지만 지배적이지 않다.
바이어스와 더 큰 모델의 사용은 일반적으로 도움되며, 주의 분포의 계층별 앙상블 평균이 개별 헤드보다 종종 더 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.