Skip to main content
QUICK REVIEW

[논문 리뷰] What do you learn from context? Probing for sentence structure in contextualized word representations

Ian Tenney, Patrick Xia|arXiv (Cornell University)|2019. 05. 15.
Topic Modeling인용 수 139
한 줄 요약

본 논문은 고정 맥락 임베딩으로 언어적 엣지를 예측함으로써 CoVe, ELMo, GPT, BERT 같은 맥락화 단어 표현에 어떤 구문적 및 의미 정보가 인코딩되어 있는지 분석하기 위한 edge probing을 도입한다. 이는 구문 신호가 의미 신호보다 더 강하고, ELMo와 BERT 같은 심층 모델에서 비지역(non-local) 정보의 존재를 보여준다.

ABSTRACT

Contextualized representation models such as ELMo (Peters et al., 2018a) and BERT (Devlin et al., 2018) have recently achieved state-of-the-art results on a diverse array of downstream NLP tasks. Building on recent token-level probing work, we introduce a novel edge probing task design and construct a broad suite of sub-sentence tasks derived from the traditional structured NLP pipeline. We probe word-level contextual representations from four recent models and investigate how they encode sentence structure across a range of syntactic, semantic, local, and long-range phenomena. We find that existing models trained on language modeling and translation produce strong representations for syntactic phenomena, but only offer comparably small improvements on semantic tasks over a non-contextual baseline.

연구 동기 및 목표

  • 맥락화 단어 임베딩이 각 토큰 위치에서 어휘적 사전 지식을 넘어서 어떤 정보를 인코딩하는지 조사한다.
  • 네 모델(CoVe, ELMo, GPT, BERT)에서 구문적/의미적, 국지적 및 장거리 현상의 인코딩을 평가한다.
  • 맥락화된 표현과 어휘적 기준선을 비교하여 맥락 주도 이득을 고립한다.

제안 방법

  • 고정된 맥락 임베딩을 사용하여 토큰 범위 사이의 라벨이 붙은 엣지를 예측하는 엣지 프로빙 프레임워크를 제안한다.
  • 스팬 기반 풀링 메커니즘과 스팬 표현으로부터 엣지 레이블을 예측하는 2계층 MLP 분류기를 개발한다.
  • 구문/의미 파이프라인에서 파생된 여덟 개 라벨링 작업(POS, 구성 요소, 의존성, NER, SRL, 코어퍼런스, SPR, 관계 분류)을 평가한다.
  • 여러 데이터셋(OntoNotes, UD, SPR1/SPR2, SemEval 2010)을 사용하고 CNN/orthonormal/randomized 변형과 비교하여 아키텍처 및 사전학습 효과를 고립한다.
  • Encoders를 미세조정하지 않은 채로, 네 모델(CoVe, ELMo, GPT, BERT)을 연결된(concat) 또는 혼합(layer) 표현으로 프로빙한다.

실험 결과

연구 질문

  • RQ1맥락화된 임베딩이 문장의 각 위치에서 어떤 언어적 정보를 인코딩하는가?
  • RQ2맥락화 표현은 주로 구문적인가 의미적인가, 국지적인가 장거리적인가?
  • RQ3다른 사전학습 목표와 아키텍처(CoVe, ELMo, GPT, BERT)가 작업 전반의 엣지 예측 성능에 어떤 영향을 미치는가?
  • RQ4관찰된 이득을 어휘적 기준선과 단순한 아키텍처 제어(CNNs, 무작위화)가 어느 정도 설명하는가?
  • RQ5더 깊은 모델들(BERT-large)이 코어퍼런스 및 SPR 같은 의미 작업에서 구문 작업에 비해 실질적인 향상을 제공하는가?

주요 결과

  • 맥락화 임베딩은 일반적으로 어휘적 기준선보다 우수하며, 의존성 및 구성 요소 라벨링과 같은 구문 작업에서 가장 큰 이득을 보인다.
  • ELMo와 GPT가 CoVe보다 더 높은 성능을 달성하며, 일반적으로 ELMo가 많은 작업에서 선두를 차지하고, GPT는 혼합 특징을 사용할 때 관계 분류 및 코어퍼런스에서 탁월하다.
  • 레이어 표현의 스칼라 믹싱(mix)이 BERT와 GPT 같은 심층 트랜스포머에서 단순 연결(cat)보다 성능을 향상시키며, BERT-large는 여러 작업에서 ELMo를 상당한 차이로 능가하는 경우가 많다(예: OntoNotes 코어퍼런스).
  • BERT-large는 OntoNotes 코어퍼런스에서 특히 큰 이득을 보이고 다른 작업에서도 합리적인 개선을 보이며, 더 깊은 비지도 학습 모델이 어느 정도 의미 이해를 도와주고 있음을 시사한다.
  • 비지역(non-local) 맥락은 상당히 기여한다: 어휘적 기준선을 작은 합성 뷰로 확장하면 많은 구문 작업에서 전체 모델 이득의 큰 부분을 회복하고, 의미 작업은 장거리 정보 의존도가 더 높은 경향을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.