QUICK REVIEW

[논문 리뷰] What do you learn from context? Probing for sentence structure in contextualized word representations

Ian Tenney, Patrick Xia|arXiv (Cornell University)|2019. 05. 15.

Topic Modeling인용 수 139

한 줄 요약

본 논문은 고정 맥락 임베딩으로 언어적 엣지를 예측함으로써 CoVe, ELMo, GPT, BERT 같은 맥락화 단어 표현에 어떤 구문적 및 의미 정보가 인코딩되어 있는지 분석하기 위한 edge probing을 도입한다. 이는 구문 신호가 의미 신호보다 더 강하고, ELMo와 BERT 같은 심층 모델에서 비지역(non-local) 정보의 존재를 보여준다.

ABSTRACT

Contextualized representation models such as ELMo (Peters et al., 2018a) and BERT (Devlin et al., 2018) have recently achieved state-of-the-art results on a diverse array of downstream NLP tasks. Building on recent token-level probing work, we introduce a novel edge probing task design and construct a broad suite of sub-sentence tasks derived from the traditional structured NLP pipeline. We probe word-level contextual representations from four recent models and investigate how they encode sentence structure across a range of syntactic, semantic, local, and long-range phenomena. We find that existing models trained on language modeling and translation produce strong representations for syntactic phenomena, but only offer comparably small improvements on semantic tasks over a non-contextual baseline.

연구 동기 및 목표

맥락화 단어 임베딩이 각 토큰 위치에서 어휘적 사전 지식을 넘어서 어떤 정보를 인코딩하는지 조사한다.
네 모델(CoVe, ELMo, GPT, BERT)에서 구문적/의미적, 국지적 및 장거리 현상의 인코딩을 평가한다.
맥락화된 표현과 어휘적 기준선을 비교하여 맥락 주도 이득을 고립한다.

제안 방법

고정된 맥락 임베딩을 사용하여 토큰 범위 사이의 라벨이 붙은 엣지를 예측하는 엣지 프로빙 프레임워크를 제안한다.
스팬 기반 풀링 메커니즘과 스팬 표현으로부터 엣지 레이블을 예측하는 2계층 MLP 분류기를 개발한다.
구문/의미 파이프라인에서 파생된 여덟 개 라벨링 작업(POS, 구성 요소, 의존성, NER, SRL, 코어퍼런스, SPR, 관계 분류)을 평가한다.
여러 데이터셋(OntoNotes, UD, SPR1/SPR2, SemEval 2010)을 사용하고 CNN/orthonormal/randomized 변형과 비교하여 아키텍처 및 사전학습 효과를 고립한다.
Encoders를 미세조정하지 않은 채로, 네 모델(CoVe, ELMo, GPT, BERT)을 연결된(concat) 또는 혼합(layer) 표현으로 프로빙한다.

실험 결과

연구 질문

RQ1맥락화된 임베딩이 문장의 각 위치에서 어떤 언어적 정보를 인코딩하는가?
RQ2맥락화 표현은 주로 구문적인가 의미적인가, 국지적인가 장거리적인가?
RQ3다른 사전학습 목표와 아키텍처(CoVe, ELMo, GPT, BERT)가 작업 전반의 엣지 예측 성능에 어떤 영향을 미치는가?
RQ4관찰된 이득을 어휘적 기준선과 단순한 아키텍처 제어(CNNs, 무작위화)가 어느 정도 설명하는가?
RQ5더 깊은 모델들(BERT-large)이 코어퍼런스 및 SPR 같은 의미 작업에서 구문 작업에 비해 실질적인 향상을 제공하는가?

주요 결과

맥락화 임베딩은 일반적으로 어휘적 기준선보다 우수하며, 의존성 및 구성 요소 라벨링과 같은 구문 작업에서 가장 큰 이득을 보인다.
ELMo와 GPT가 CoVe보다 더 높은 성능을 달성하며, 일반적으로 ELMo가 많은 작업에서 선두를 차지하고, GPT는 혼합 특징을 사용할 때 관계 분류 및 코어퍼런스에서 탁월하다.
레이어 표현의 스칼라 믹싱(mix)이 BERT와 GPT 같은 심층 트랜스포머에서 단순 연결(cat)보다 성능을 향상시키며, BERT-large는 여러 작업에서 ELMo를 상당한 차이로 능가하는 경우가 많다(예: OntoNotes 코어퍼런스).
BERT-large는 OntoNotes 코어퍼런스에서 특히 큰 이득을 보이고 다른 작업에서도 합리적인 개선을 보이며, 더 깊은 비지도 학습 모델이 어느 정도 의미 이해를 도와주고 있음을 시사한다.
비지역(non-local) 맥락은 상당히 기여한다: 어휘적 기준선을 작은 합성 뷰로 확장하면 많은 구문 작업에서 전체 모델 이득의 큰 부분을 회복하고, 의미 작업은 장거리 정보 의존도가 더 높은 경향을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.