Skip to main content
QUICK REVIEW

[논문 리뷰] TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER.

Subhabrata Mukherjee, Ahmed Hassan Awadallah|arXiv (Cornell University)|2020. 04. 12.
Topic Modeling인용 수 4
한 줄 요약

이 논문은 효율적인 다국어 명명된 실체 인식(NER)을 위한 다국어 BERT(MBERT) 모델을 압축하기 위해 다단계 정규화 프레임워크인 TinyMBERT를 제안한다. 단계별 최적화 방식을 통해 내부 교사 모델 표현을 활용함으로써, 41개 언어에서 교사 모델의 F1 점수의 95%를 유지하면서 최대 35배의 파라미터 감소와 51배의 지연 감소를 달성한다.

ABSTRACT

Deep and large pre-trained language models are the state-of-the-art for various natural language processing tasks. However, the huge size of these models could be a deterrent to use them in practice. Some recent and concurrent works use knowledge distillation to compress these huge models into shallow ones. In this work we study knowledge distillation with a focus on multi-lingual Named Entity Recognition (NER). In particular, we study several distillation strategies and propose a stage-wise optimization scheme leveraging teacher internal representations that is agnostic of teacher architecture and show that it outperforms strategies employed in prior works. Additionally, we investigate the role of several factors like the amount of unlabeled data, annotation resources, model architecture and inference latency to name a few. We show that our approach leads to massive compression of MBERT-like teacher models by upto 35x in terms of parameters and 51x in terms of latency for batch inference while retaining 95% of its F1-score for NER over 41 languages.

연구 동기 및 목표

  • 높은 계산 및 메모리 비용으로 인해 실세계 NLP 응용에서 큰 사전 훈련된 다국어 모델의 비효율성 문제를 해결하기 위해.
  • 다국어 명명된 실체 인식(NER) 작업에 특화된 효과적인 지식 정규화 전략을 탐색하기 위해.
  • 교사 모델 아키텍처에 종속되지 않는 정규화 프레임워크를 개발하고, 성능 향상을 위해 내부 표현을 활용하기 위해.
  • 비라벨 데이터, 주석 자원, 모델 아키텍처, 추론 지연 시간이 정규화 효과에 미치는 영향을 조사하기 위해.
  • 다국어 NER에서 성능 저하 없이 막대한 모델 압축을 달성하기 위해.

제안 방법

  • 큰 다국어 교사 모델(MBERT)에서 작은 학생 모델로 지식을 점진적으로 전이하는 단계별 정규화 프레임워크를 제안한다.
  • 학생 훈련을 이끄는 데 다층적인 교사 모델의 내부 표현(예: 은닉 상태)을 사용하여 지식 전이를 향상시킨다.
  • 아키텍처에 종속되지 않는 정규화 전략을 설계하여, 수정 없이 다양한 교사 모델에 적용할 수 있도록 한다.
  • 각 단계가 특정 지식 전이 목표에 집중하는 다단계 최적화 과정을 활용하여 학생 모델 성능을 점진적으로 향상시킨다.
  • 낮은 자원 언어에서의 일반화 및 강건성을 향상시키기 위해 정규화 과정 중 비라벨 데이터를 통합한다.
  • 모델 크기와 지연 시간을 최소화하면서도 다국어 NER 벤치마크에서 높은 F1 점수를 유지하는 방식으로 추론 효율성을 최적화한다.

실험 결과

연구 질문

  • RQ1내부 교사 표현을 활용한 단계별 정규화가 표준 정규화에 비해 다국어 NER에서 학생 모델 성능을 얼마나 향상시키는가?
  • RQ241개 언어에서 높은 F1 점수를 유지하면서 얼마나 많은 모델 압축을 달성할 수 있는가?
  • RQ3비라벨 데이터의 양, 주석 자원의 가용성, 모델 아키텍처 등의 요소가 정규화 결과에 미치는 영향은 어떠한가?
  • RQ4교사 모델 아키텍처에 종속되지 않으면서도 성능 저하 없이 정규화 프레임워크를 설계할 수 있는가?
  • RQ5압축된 다국어 NER 모델에서 모델 크기, 추론 지연 시간, F1 점수 간의 상충 관계는 어떠한가?

주요 결과

  • 제안된 다단계 정규화 프레임워크는 다국어 NER 분야에서 기존 지식 정규화 전략을 능가한다.
  • TinyMBERT는 원본 MBERT 교사 모델 대비 최대 35배의 파라미터 감소를 달성한다.
  • 프레임워크는 배치 추론 지연 시간을 최대 51배 감소시키며, 41개 언어에서 교사 모델의 F1 점수의 95%를 유지한다.
  • 내부 교사 표현의 사용은 특히 낮은 자원 언어 환경에서 지식 전이의 향상에 크게 기여한다.
  • 비라벨 데이터 및 주석 자원의 양에 관계없이 정규화 과정이 강건하며, 일관된 성능 향상을 보인다.
  • 아키텍처에 종속되지 않는 설계 덕분에 다양한 교사 모델에 대해 수정 없이 효과적인 정규화가 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.