QUICK REVIEW

[논문 리뷰] What do you learn from context? Probing for sentence structure in contextualized word representations

Ian Tenney, Patrick Xia|arXiv (Cornell University)|2019. 05. 15.

Topic Modeling인용 수 362

한 줄 요약

이 논문은 문맥화된 단어 임베딩이 문장 구조에 대해 어떤 정보를 인코딩하는지 분석하기 위한 엣지 프로빙 작업을 도입하여, 강한 구문 인코딩을 보여주지만 어휘 베이스라인을 넘는 의미적 이득은 제한적이며, BERT가 상당한 개선을 제공한다.

ABSTRACT

Contextualized representation models such as ELMo (Peters et al., 2018a) and BERT (Devlin et al., 2018) have recently achieved state-of-the-art results on a diverse array of downstream NLP tasks. Building on recent token-level probing work, we introduce a novel edge probing task design and construct a broad suite of sub-sentence tasks derived from the traditional structured NLP pipeline. We probe word-level contextual representations from four recent models and investigate how they encode sentence structure across a range of syntactic, semantic, local, and long-range phenomena. We find that existing models trained on language modeling and translation produce strong representations for syntactic phenomena, but only offer comparably small improvements on semantic tasks over a non-contextual baseline.

연구 동기 및 목표

맥락화된 단어 표현을 프로빙하여 각 토큰 위치에 어떤 언어 정보가 인코딩되어 있는지 이해한다.
고정된 컨텍스트 임베딩을 사용하여 구문적 및 의미적 구조를 평가하는 일관된 프레임워크로 엣지 프로빙을 도입한다.
네 가지 주요 컨텍스트 모델(CoVe, ELMo, GPT, BERT)을 광범위한 하위문장 태스크 스위트에서 평가한다.
맥락화된 표현을 어휘적 베이스라인과 비교하여 맥락 정보의 기여를 분리한다.

제안 방법

각 NLP 라벨링 태스크를 토큰 span 또는 span 쌍에 대한 이진 라벨 예측으로 해석하는 엣지 프로빙 태스크 설계를 정의한다.
고정된 사전학습 인코더를 사용해 컨텍스트 벡터를 생성하고 span 풀링 + MLP 분류기를 사용해 태스크 라벨을 예측한다.
프로빙 모델은 주어진 span 내의 임베딩에만 접근하도록 하여 분석이 인코더에 의해 사용 가능한 정보만 반영되도록 한다.
OntoNotes와 UD 트리뱅크에서 파생된 여덟 개의 라벨링 태스크(POS, 구성요소, 의존성, 명명된 엔티티, SRL, 핵심참조, SPR, 관계 분류)를 examine한다.
네 가지 인코더(CoVe, ELMo, GPT, BERT)를 어휘 베이스라인 및 확장 베이스라인(CNN이 어휘 특징 위에 작동, 무작위 ELMo)을 비교하여 구조적 효과 대 사전학습 효과를 측정한다.

실험 결과

연구 질문

RQ1맥락화된 임베딩이 각 토큰 위치에서 문장 구조에 대해 어떤 정보를 인코딩하는가?
RQ2맥락 표현은 구문적 현상과 의미적 현상을 어느 정도 포착하는가?
RQ3관찰된 이득의 얼마나 많은 부분이 아키텍처 대 사전학습과 장거리 의존성에 기인하는가?
RQ4맥락적 모델이 로컬 컨텍스트에 주로 의존하는가, 아니면 장거리 의존성을 인코딩하는가?
RQ5다양한 모델(CoVe, ELMo, GPT, BERT)이 서브-문장 태스크에서 어떻게 비교되는가?

주요 결과

맥락 임베딩은 일반적으로 어휘 베이스라인보다 구문 태스크(예: 의존성 및 구성요소)에서 더 잘 작동하는 반면 의미 태스크에서의 이득은 더 작다.
ELMo와 GPT는 CoVe보다 상당히 우수하게 작동하며; BERT는 더 큰 이득으로 추가 개선을 보이며 특히 핵심참조에서 큰 이익을 얻고, BERT-large는 여러 태스크에서 오류를 크게 줄여.
레이어 활성화의 스칼라 혼합(mix)이 단순 연결보다 종종 더 나은 결과를 낸다, 특히 BERT 및 GPT 같은 심층 Transformer 모델에서.
의미 태스크에서 이득은 존재하지만 작다; 의미 원형 역할과 Winograd-스타일 핵심참조의 개선은 제한적이지만 관계 분류는 맥락 인코딩으로부터 현저히 이득.
CNN 기반의 로컬 컨텍스트 확장이 구문 태스크의 대부분 이득을 설명하며, 일부 의미 태스크는 전체 인코더가 제공하는 진정한 장거리 정보의 이점으로 편익이 증가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.