[논문 리뷰] Sentence Encoders on STILTs: Supplementary Training on Intermediate Labeled-data Tasks
STILTs는 비지도 사전학습과 목표 작업 미세조정 사이에 라벨이 있는 중간 작업에 대한 보조 학습 단계를 추가하여 BERT, GPT, ELMo의 GLUE 성능을 향상시키며, 특히 데이터가 부족한 설정에서 효과를 보입니다.
Pretraining sentence encoders with language modeling and related unsupervised tasks has recently been shown to be very effective for language understanding tasks. By supplementing language model-style pretraining with further training on data-rich supervised tasks, such as natural language inference, we obtain additional performance improvements on the GLUE benchmark. Applying supplementary training on BERT (Devlin et al., 2018), we attain a GLUE score of 81.8---the state of the art (as of 02/24/2019) and a 1.4 point improvement over BERT. We also observe reduced variance across random restarts in this setting. Our approach yields similar improvements when applied to ELMo (Peters et al., 2018a) and Radford et al. (2018)'s model. In addition, the benefits of supplementary training are particularly pronounced in data-constrained regimes, as we show in experiments with artificially limited training data.
연구 동기 및 목표
- 데이터가 풍부한 작업에서 2단계 감독 사전 학습을 추가하여 문장 인코더의 전이 학습의 강건성과 효과를 개선하려는 동기를 제시한다.
- 세 가지 아키텍처(BERT, GPT, ELMo)에서 STILTs가 GLUE의 타깃 작업 성능을 향상시키는지 평가한다.
- MNLI, SNLI, QQP, fake-sentence-detection 등 어떤 중간 작업들이 이득을 주는지, 어떤 데이터 조건에서 그런지 식별한다.
- STILTs를 사용할 때 무작위 재시작 간의 안정성과 분산을 평가한다.
제안 방법
- 비라벨 데이터(언어 모델링 또는 동등한 방식)에서 인코더를 사전 학습한다.
- 타깃-task 미세조정 전에 중간 라벨 데이터 작업에 대한 보조 학습 단계를 삽입한다(STILTs).
- GLUE 과제에 대해 엔드투엔드 미세조정; BERT, GPT, ELMo에서 STILTs의 유무에 따라 비교한다.
- MNLI, SNLI, QQP, 그리고 BooksCorpus를 기반으로 한 fake-sentence-detection 작업의 4개 중간 과제를 사용한다.
- 전체 데이터와 제한된 데이터 조건(1k 및 5k 타깃-작업 예제)에서 평가한다.
- GLUE 개발 세트 및 테스트 세트에 대한 결과를 제공하고, 무작위 재시작 간의 안정성을 분석한다.
실험 결과
연구 질문
- RQ1STILTs가 BERT, GPT, ELMo 전반에 걸쳐 GLUE 작업 성능을 향상시키는가?
- RQ2어떤 중간 작업이 가장 일관되게 이득을 주며, 어떤 타깃 작업이나 데이터 조건에서인가?
- RQ3작은 데이터 설정에서 STILTs가 학습 안정성과 비정상 실행 수에 어떤 영향을 미치는가?
- RQ4문장 쌍 작업에서의 STILTs 이점이 단일 문장 작업보다 더 큰가?
주요 결과
| 모델 | 평균 | A.Ex | CoLA | SST | MRPC | QQP | STS | MNLI | QNLI | RTE | WNLI | 학습 세트 크기 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| BERT | 78.3 | 78.1 | 60.6 | 93.5 | 87.3/ | 91.0 | 83.1/ | 78.6 | 90.2/ | 89.8 | 77.1 | 74.0 | 56.3 |
- STILTs는 BERT, GPT, ELMo 전반의 대부분 GLUE 작업에서 상당한 이득을 제공하며, 데이터가 부족한 설정에서 가장 큰 개선이 나타난다.
- 작성 시점에 STILTs를 적용한 BERT는 전체 벤치마크에서 GLUE 성능의 최첨단에 이른다.
- STILTs는 무작위 재시작 간의 분산을 줄이고 비정상 실행을 감소시키며, 특히 제한된 데이터에서 24-레이어 BERT 모델에 대해 그렇다.
- 문장 쌍 작업은 보조 학습으로부터 더 많은 이득을 얻는 경향이 있으며, 단일 문장 작업은(CoLA와 SST는 혼합 결과를 보임).
- 여러 설정에서 GPT와 ELMo의 개선이 BERT보다 크며, 이는 아키텍처 차이 및 사전학습 목적 때문일 수 있다.
- 중간 작업 중 MNLI와 SNLI가 자주 견고한 이득을 제공하는 반면, fake-sentence-detection 작업은 GPT에 더 광범위하게 이득을 주고 일부 중간 작업은 특정 타깃 작업에 해를 줄 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.