Skip to main content
QUICK REVIEW

[논문 리뷰] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding

Wei Wang, Bin Bi|arXiv (Cornell University)|2019. 08. 13.
Topic Modeling참고 문헌 35인용 수 100
한 줄 요약

StructBERT는 BERT에 단어- 및 문장 구조 학습 목표를 추가하여 GLUE, SNLI, SQuAD 벤치마크에서 성능을 향상시킵니다.

ABSTRACT

Recently, the pre-trained language model, BERT (and its robustly optimized version RoBERTa), has attracted a lot of attention in natural language understanding (NLU), and achieved state-of-the-art accuracy in various NLU tasks, such as sentiment classification, natural language inference, semantic textual similarity and question answering. Inspired by the linearization exploration work of Elman [8], we extend BERT to a new model, StructBERT, by incorporating language structures into pre-training. Specifically, we pre-train StructBERT with two auxiliary tasks to make the most of the sequential order of words and sentences, which leverage language structures at the word and sentence levels, respectively. As a result, the new model is adapted to different levels of language understanding required by downstream tasks. The StructBERT with structural pre-training gives surprisingly good empirical results on a variety of downstream tasks, including pushing the state-of-the-art on the GLUE benchmark to 89.0 (outperforming all published models), the F1 score on SQuAD v1.1 question answering to 93.0, the accuracy on SNLI to 91.7.

연구 동기 및 목표

  • 더 깊은 언어 이해를 위해 사전 학습 중에 기본 언어 구조를 활용할 필요성을 제시한다.
  • 단어 순서와 문장 간 관계를 포착하기 위한 두 가지 구조적 사전 학습 목표로 BERT를 확장한다.
  • 구조적 사전 학습이 다양한 NLU 태스크에서 일반화 성능을 향상시킨다는 것을 입증한다.

제안 방법

  • BERT 트랜스포머 프레임워크에서 시작해 두 가지 새로운 보조 사전 학습 과제를 추가한다: 단어 구조적 목표와 문장 구조적 목표.
  • 단어 구조적 목표: 토큰의 15%를 마스킹한 후 비마스킹 토큰 중에서 3-단어 시퀀스(트라이그램)를 섞고 원래 위치를 예측하도록 모델을 학습시킨다.
  • 문장 구조적 목표: 한 쌍의 문장 순서를 무작위로 정하고 두 번째 문장이 다음 문장인지, 이전인지, 임의인지 예측하도록 학습해 문장 간 구조를 양방향으로 모델링한다.
  • 이 목표들을 원래의 마스킹된 LM 목표와 하나의 사전 학습 손실로 결합한다.
  • WordPiece 토크나이제이션, 512 시퀀스 길이, 표준 BERT 유사 입력 표현 및 트랜스포머 인코더를 사용한다.
  • 영어 위키피디아와 BookCorpus에서 대규모 분산 학습으로 사전 학습한 후 태스크별 미세조정을 실시한다.

실험 결과

연구 질문

  • RQ1사전 학습 중에 명시적 단어 순서 및 문장 간 구조 신호가 BERT를 넘어 다운스트림 NLU 성능을 향상시킬 수 있는가?
  • RQ2단어 및 문장 구조 목표가 단일 문장 태스크와 문장 쌍 태스크에서 얼마나 기여하는가?
  • RQ3StructBERT 변형들이 GLUE, SNLI, SQuAD 벤치마크에서 동시대 모델들과 어떻게 비교되는가?

주요 결과

  • StructBERTLarge 앙상블은 GLUE 평균 점수에서 선두를 차지하며(당시 최첨단), GLUE에서 평균 89.0점을 달성했다.
  • StructBERT는 SNLI에서 91.7% 정확도를 달성하며(단일 모델) 기존 모델을 능가했다.
  • StructBERT는 SQuAD v1.1에서 F1 93.0을 달성하며 추가 데이터 증강 없이도 많은 베이스라인을 능가했다.
  • 특정 제거 실험은 단어 구조 목표와 문장 구조 목표 둘 다가 태스크 전반에 이익을 주며, 어느 하나를 제거하면 성능이 저하되는데, 특히 CoLA의 경우 단어 목표가, MNLI/SQuAD의 경우 문장 목표가 더 큰 영향을 준다.
  • 단어 구조 목표는 특히 단일 문장 태스크(예: CoLA)를 향상시키고, 문장 구조 목표는 문장 쌍 태스크(MNLI, SNLI, QQP, SQuAD)를 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.